전체 글

· Paper Review
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Meta, NYU] - LLM-as-a-Judge prompting을 이용하여 스스로 반환한 reward로 학습하는 Self-Rewarding Language Models를 제안 - DPO를 이용하여 반복 학습을 진행하는 동안 instruction following & providing high-quality rewards 능력이 둘 다 향상됨 - Llama 2 70B 모델을 3 iterations로 학습하여 AlapacaEavl 2.0 리더보드에서 우수한 성능을 보임 1. Introduction LLM을 사람의 선호에 맞게 ..
· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [FAIR, AI at Meta, The Hebrew University of Jerusalem] - decoder-only transformer가 infinite multi-state RNNs으로 개념화 될 수 있다는 것을 입증 - 나아가 사전학습된 transformers를 finite multi-state RNNs으로 전환 - 이때 사용되는 새로운 compression policy, TOVA를 제시 1. Introduction transformer의 아키텍쳐가 자연어처리 분야에서 핵심으로 자리잡게 되었지만, 이것과 기존 RNN과의 관계에 대한..
· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Research, Google DeepMind] - 다른 모델 간의 cross-attention을 통해 새로운 capabilities를 획득하게 하는 기법, CALM - Composition to Augment Language Models - 기존 LLM은 're-using'하면서 새로운 few additional parameters와 data를 사용 - 다양한 도메인과 환경에 적용 가능하다는 특징(장점)을 보유 1. Introduction LLM은 여러 태스크 중에서도 이전과 달리 commonsense 또는 factual reas..
· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Mistral.AI] - Mistral 7B 아키텍쳐에서 각 layer를 8개의 feedforward blocks (experts)로 구성한 Mixtral 8x7B 모델 (32K) - 각 layer에서 router network가 current state를 처리하기 위한 두 개의 experts를 선정하고 두 결과물을 취합 - 각 토큰은 47B 파라미터에 대해 접근할 수 있지만 추론 단계에 활용되는 것은 13B의 activa parameters 뿐임 - instruction을 따르도록 tuning된 Mixtral 8x7B - Instruct 모델..
· 딥러닝
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Tsinghua University, Zhipu AI] - GUI에 대한 이해가 뛰어난 18B 사이즈의 Visual Language Model (VLM)을 도입 - low-resolution & high-resolution image encoder를 동시에 사용하고 cross attention - VQA & GUI 벤치마크 둘 다에서 뛰어난 성능이 확인됨 1. Introduction 최근 LLM을 바탕으로 한 agent의 성장세가 가파른 상황입니다. 무려 15만 개의 star를 받은 AutoGPT를 시작으로 LLM의 능력을 다양한 applica..
· Paper Review
NLP 분야의 (지금은 분야를 막론하고 그렇지만) 전설적인 논문인 Attention Is All You Need를 읽고 간단히 정리해보았습니다. 100% 이해하는 것이 쉽지 않기도 하고.. 자세히 정리하다가는 하루가 꼬박 날아갈 가능성이 있어 핵심적인 개념들 위주로 정리하며 복습해볼 생각입니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Brain, Google Research, University of Toronto] - 오직 attention mechanism만으로 구성된 simple network architecture, Transformer를 제안 - 영어를 다른 언어로 번역하는 태스크에서 뛰어난 일반화 성능을 보임 1..
chanmuzi
chanmuzi