paper review

· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Mistral.AI] - Mistral 7B 아키텍쳐에서 각 layer를 8개의 feedforward blocks (experts)로 구성한 Mixtral 8x7B 모델 (32K) - 각 layer에서 router network가 current state를 처리하기 위한 두 개의 experts를 선정하고 두 결과물을 취합 - 각 토큰은 47B 파라미터에 대해 접근할 수 있지만 추론 단계에 활용되는 것은 13B의 activa parameters 뿐임 - instruction을 따르도록 tuning된 Mixtral 8x7B - Instruct 모델..
· 딥러닝
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Tsinghua University, Zhipu AI] - GUI에 대한 이해가 뛰어난 18B 사이즈의 Visual Language Model (VLM)을 도입 - low-resolution & high-resolution image encoder를 동시에 사용하고 cross attention - VQA & GUI 벤치마크 둘 다에서 뛰어난 성능이 확인됨 1. Introduction 최근 LLM을 바탕으로 한 agent의 성장세가 가파른 상황입니다. 무려 15만 개의 star를 받은 AutoGPT를 시작으로 LLM의 능력을 다양한 applica..
· Paper Review
NLP 분야의 (지금은 분야를 막론하고 그렇지만) 전설적인 논문인 Attention Is All You Need를 읽고 간단히 정리해보았습니다. 100% 이해하는 것이 쉽지 않기도 하고.. 자세히 정리하다가는 하루가 꼬박 날아갈 가능성이 있어 핵심적인 개념들 위주로 정리하며 복습해볼 생각입니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Brain, Google Research, University of Toronto] - 오직 attention mechanism만으로 구성된 simple network architecture, Transformer를 제안 - 영어를 다른 언어로 번역하는 태스크에서 뛰어난 일반화 성능을 보임 1..
· Paper Review
관심있는 NLP 논문을 읽어보고 정리해보았습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [StatNLP Research Group] - 약 1 trillion tokens을 3 epoch 동안 사전학습한 compact 1.1B 언어 모델 - 기존 open-source 언어 모델들(OPT-1.3B, Pythia-1.4B)을 능가하는 성능 1. Introduction 최근 NLP 분야는 언어 모델의 사이즈를 scaling up 하는 방식으로 빠르게 발전하고 있음 이에 따라 한정된 자원을 효율적으로 활용하여 최적의 모델 사이즈와 이에 할당해야 하는 학습 데이터의 양을 정하는 것이 중요한 이슈로 떠오르게 됨 초반에는 모델의 사이즈를 무식하게(..
· Paper Review
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Abstract 대규모 언어 모델(Large Language Models, LLMs)은 다양한 추론 작업에서 뛰어난 성능을 보이지만, 많은 매개변수와 접근성 문제로 실제 적용에 어려움이 있음. LLM에서 생성된 사고 과정 체인을 활용하여 작은 모델로 추론 능력을 정제하는 방법이 유망함. 복잡한 수학 문제 등에서 LLM이 잘못된 추론 체인을 생성할 수 있음. 기존 연구는 정확한 답변을 포함한 긍정적 데이터만을 이용하고, 잘못된 답변을 포함한 데이터는 제외함. 본 연구에서는 부정적 데이터의 중요성을 제시하고, 긍정적 및 부정적 샘플..
· Paper Review
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success 0. Abstract [Upstage AI] - SOLAR 10.7B 소개: 107억 개의 파라미터를 가진 대규모 언어 모델(Large Language Model, LLM). - 주요 특징: 다양한 자연어 처리(Natural Language Processing, NLP) 작업에서 우수한 성능을 보임. - Depth Up-Scaling(DUS) 방법 제시: LLM의 효율적인 확장을 위한 깊이 기반 스케일링과 지속적인 사전 훈련을 포함. - DUS의 장점: 기존 대규모 LLM 스케일링 방법들과 달리 복잡한 변경 없이 효율적인 훈련 ..
chanmuzi
'paper review' 태그의 글 목록 (6 Page)