'LLM' 태그의 글 목록 (9 Page)

<LMM> Gemini: A Family of Highly Capable Multimodal Models (2023.12)

2023.12.13· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Gemini Team, Google] - image, audio, video, text understanding에 있어서 압도적인 능력을 보여주는 multimodal models faimily, Gemini - MMLU에서 human-expert 이상의 performance를 달성한 최초의 케이스 1. Introduction 여러 modalities를 아우르는 능력을 지녔으면서도 각 도메인에서 뛰어난 understanding & reasoning 능력을 갖춘 Gemini 모델을 학습시켰음 모델의 크기는 세 종류로 구분됨 Ultra: for hi..

<SSM> Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023.12)

2023.12.12· Paper Review

관심있는 NLP 논문을 읽어보고 ChatGPT를 이용해 정리했습니다. (요약을 제외한 모든 내용은 ChatGPT가 요약한 내용입니다 😁) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Carnegie Mellon University, Princeton University] - selective SSMs을 simplified end-to-end neural network architecture로 통합함 - attention 또는 심지어 MLP block을 포함하지 않음 1. Introduction 기초 모델(FMs)의 개요 FMs는 대규모 데이터로 사전 학습된 후 하위 작업에 적용되는 대형 모델로, 현대 머신러닝에서 효과적인 패러다임으로 부상...

<CoX> Chain of Code: Reasoning with a Language Model-Augmented Code Emulator (2023.12)

2023.12.11· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google DeepMind, Stanford University, University of California, Berkeley] - LM의 code-driven reasoning 능력을 향상시켜주는 간단하면서도 효과적인 extension, Chain of Code (CoC) 공개 - 실행 가능한 코드는 interpreter로 실행해보고, 그럴 수 없는 것은 LM을 활용하여 emulate하는 방식, LMulator 도입 1. Introduction 복잡한 문제를 여러 세부 태스크로 쪼개어 처리하는 Chain of Thought (CoT) 방식..

<Distillation> [Tutok-KD] Tutoring Helps Students Learn Better: Improving Knowledge Distillation for BERT with Tutor Network (2022.12)

2023.12.11· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [DI Lab, Korea University] - 사전 학습 동안에 학습 예시들의 난이도를 조절함으롰 dillation의 효율성을 높인 Tutor-KD - 샘플의 난이도는 teacher model에게는 쉽고 student model에게는 어려운 것으로 조절 - policy gradient method를 활용 1. Introduction Pre-trained Language Models (PLMs)은 뛰어난 성능으로 NLP 분야에서 크게 주목 받았으나 많은 자원을 필요로 한다는 한계를 지님 이를 해결하기 위한 방법 중 하나로 Knowledge D..

<Curriculum> Efficient Pre-training of Masked Language Model via Concept-based Curriculum Masking (2022.12)

2023.12.08· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [DI Lab, Korea University] - 언어 모델을 효과적으로 pre-train하는 concept-based curriculum masking (CCM) method를 제안 - MLM (Masked Language Modeling)의 난이도는 linguistic difficulty를 기준으로 삼음 1. Introduction 자연어 처리 분야에서 MLM (Masked Language Modeling)은 모델 성능 향상에 크게 기여했으나 많은 양의 연산 자원을 필요로 한다는 문제점을 안고 있었음 CL (Curriculum Learnin..

<LLM> The Falcon Series of Open Language Models (2023.11)

2023.12.07· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Technology Innovation Institute, Abu Dhabi] - Falcon-7/40/180B 모델을 공개 - RefinedWeb 데이터셋 중 600B 토큰을 공개 (전체는 5T 토큰이라고 언급) - Falcon series에 대한 detailed research 1. Introduction 언어 모델의 폭발적인 성장 및 발전은 transformer 아키텍쳐의 scability에 근간을 두고 있습니다. 본 논문에서는 이를 세 가지 관점(axes)에서 살펴보고 있습니다. Performance Scability: 사전학습에 들어가..

티스토리툴바