'LLM' 태그의 글 목록 (6 Page)

<LLM, RNN> Transformers are Multi-State RNNs (2024.01)

2024.01.20· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [FAIR, AI at Meta, The Hebrew University of Jerusalem] - decoder-only transformer가 infinite multi-state RNNs으로 개념화 될 수 있다는 것을 입증 - 나아가 사전학습된 transformers를 finite multi-state RNNs으로 전환 - 이때 사용되는 새로운 compression policy, TOVA를 제시 1. Introduction transformer의 아키텍쳐가 자연어처리 분야에서 핵심으로 자리잡게 되었지만, 이것과 기존 RNN과의 관계에 대한..

<Attention> [CALM] LLM Augmented LLMs: Expanding Capabilities through Composition (2024.01)

2024.01.18· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Research, Google DeepMind] - 다른 모델 간의 cross-attention을 통해 새로운 capabilities를 획득하게 하는 기법, CALM - Composition to Augment Language Models - 기존 LLM은 're-using'하면서 새로운 few additional parameters와 data를 사용 - 다양한 도메인과 환경에 적용 가능하다는 특징(장점)을 보유 1. Introduction LLM은 여러 태스크 중에서도 이전과 달리 commonsense 또는 factual reas..

<LLM> [MoE] Mixtral of Experts (2024.01)

2024.01.16· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Mistral.AI] - Mistral 7B 아키텍쳐에서 각 layer를 8개의 feedforward blocks (experts)로 구성한 Mixtral 8x7B 모델 (32K) - 각 layer에서 router network가 current state를 처리하기 위한 두 개의 experts를 선정하고 두 결과물을 취합 - 각 토큰은 47B 파라미터에 대해 접근할 수 있지만 추론 단계에 활용되는 것은 13B의 activa parameters 뿐임 - instruction을 따르도록 tuning된 Mixtral 8x7B - Instruct 모델..

<Agent, VLM> CogAgent: A Visual Language Model for GUI Agents (2023.12)

2024.01.11· 딥러닝

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Tsinghua University, Zhipu AI] - GUI에 대한 이해가 뛰어난 18B 사이즈의 Visual Language Model (VLM)을 도입 - low-resolution & high-resolution image encoder를 동시에 사용하고 cross attention - VQA & GUI 벤치마크 둘 다에서 뛰어난 성능이 확인됨 1. Introduction 최근 LLM을 바탕으로 한 agent의 성장세가 가파른 상황입니다. 무려 15만 개의 star를 받은 AutoGPT를 시작으로 LLM의 능력을 다양한 applica..

<sLLM> TinyLlama: An Open-Source Small Language Model (2024.01)

2024.01.08· Paper Review

관심있는 NLP 논문을 읽어보고 정리해보았습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [StatNLP Research Group] - 약 1 trillion tokens을 3 epoch 동안 사전학습한 compact 1.1B 언어 모델 - 기존 open-source 언어 모델들(OPT-1.3B, Pythia-1.4B)을 능가하는 성능 1. Introduction 최근 NLP 분야는 언어 모델의 사이즈를 scaling up 하는 방식으로 빠르게 발전하고 있음 이에 따라 한정된 자원을 효율적으로 활용하여 최적의 모델 사이즈와 이에 할당해야 하는 학습 데이터의 양을 정하는 것이 중요한 이슈로 떠오르게 됨 초반에는 모델의 사이즈를 무식하게(..

<KD, Reasoning> [NAT] Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data (2023.12)

2024.01.03· Paper Review

관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Abstract 대규모 언어 모델(Large Language Models, LLMs)은 다양한 추론 작업에서 뛰어난 성능을 보이지만, 많은 매개변수와 접근성 문제로 실제 적용에 어려움이 있음. LLM에서 생성된 사고 과정 체인을 활용하여 작은 모델로 추론 능력을 정제하는 방법이 유망함. 복잡한 수학 문제 등에서 LLM이 잘못된 추론 체인을 생성할 수 있음. 기존 연구는 정확한 답변을 포함한 긍정적 데이터만을 이용하고, 잘못된 답변을 포함한 데이터는 제외함. 본 연구에서는 부정적 데이터의 중요성을 제시하고, 긍정적 및 부정적 샘플..

티스토리툴바