관심 있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [ByteDance Research] - CoT 데이터에 SFT를 적용할 때, 각 질문마다 존재할 수 있는 여러 개의 reasoning paths를 활용하는 방식 - 수학 문제를 푸는 세 개의 벤치마크(GSM8K, MathQA, SVAMP)를 통해 뛰어난 generalizability를 확인 - SFT로 warmup한 이후 PPO를 적용하는 방식인 Reinforced Fine-Tuning을 제안 - 다양한 inference-tim strategies와 결합 가능한 방법론 1. Introduction 지금까지 수학 문제를 푸는 ..
paper review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[Allen Institue for AI]- a lightweight decoding-time algorithm, proxy-tuning을 제안- output vocabulary에 대한 prediction만을 활용하는 테크닉- 사이즈가 작은 두 모델의 확률 분포차를 큰 베이스 모델에 반영하는 방식으로, 본 논문에서는 Llama 패밀리 모델들을 사용 1. IntroductionLLM을 직접 학습시키는 것은 너무나도 많은 비용을 필요로 하기도 하고, 사실 요즘엔 애초에 접근 자체가 불가능한 경우가 많습니다.회사 이름값을 못하는 OpenAI의 GPT-4..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Fudan University, Shanghai Artificial Intelligence Laboratory] - AI assistant가 자신이 답변하지 못할 질문에 대해서는 '모른다'고 답변하는 것이 hallucination을 줄이는 데 중요함 - model-specific한 "I don't know" (Idk) 데이터셋을 구축하고 이를 활용한 것이 유의미한 결과로 이어짐을 입증 1. Introduction LLM은 다양한 태스크를 잘 처리할 수 있다는 강점을 바탕으로 helpfulness를 제대로 발휘하고 있습니다. 그러나 halluci..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Tencent AI Lab] - 여러 LLM들의 능력을 single LLM으로 전이하는 방법론을 제시 - Llama-2, MPT, OpenLLaMA, 세 모델을 사용 - source LLM들의 생성 확률 분포를 기반으로 fusion 1. Introduction LLaMA, GPT와 같은 모델을 직접 학습하는 것은 천문학적인 비용을 초래하며 환경 문제에까지 큰 영향을 준다는 것이 잘 알려져있습니다. 그래서 모델을 직접 학습하지 않고 기존 모델들의 지식을 활용하는 방법론들이 다양하게 제시되고 있습니다. 본 논문에서는 knowledge fusion ..
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Meta, NYU] - LLM-as-a-Judge prompting을 이용하여 스스로 반환한 reward로 학습하는 Self-Rewarding Language Models를 제안 - DPO를 이용하여 반복 학습을 진행하는 동안 instruction following & providing high-quality rewards 능력이 둘 다 향상됨 - Llama 2 70B 모델을 3 iterations로 학습하여 AlapacaEavl 2.0 리더보드에서 우수한 성능을 보임 1. Introduction LLM을 사람의 선호에 맞게 ..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google Research, Google DeepMind] - 다른 모델 간의 cross-attention을 통해 새로운 capabilities를 획득하게 하는 기법, CALM - Composition to Augment Language Models - 기존 LLM은 're-using'하면서 새로운 few additional parameters와 data를 사용 - 다양한 도메인과 환경에 적용 가능하다는 특징(장점)을 보유 1. Introduction LLM은 여러 태스크 중에서도 이전과 달리 commonsense 또는 factual reas..