관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google Research, Google DeepMind] - 다른 모델 간의 cross-attention을 통해 새로운 capabilities를 획득하게 하는 기법, CALM - Composition to Augment Language Models - 기존 LLM은 're-using'하면서 새로운 few additional parameters와 data를 사용 - 다양한 도메인과 환경에 적용 가능하다는 특징(장점)을 보유 1. Introduction LLM은 여러 태스크 중에서도 이전과 달리 commonsense 또는 factual reas..
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google Research, Brain Team] - 본 논문에서는 chain-of-thought 프롬프팅에 사용되던 단순한 greedy decoding 대신 새로운 디코딩 전략인 'self-consistency'를 제안합니다. - 이 전략은 greedy 방식 대신 다양한 추론 경로를 샘플링한 후 가장 일관성 있는 답변을 선택하는 방식입니다. 이는 복잡한 추론 문제가 일반적으로 정확한 답을 이끌어내는 다양한 사고 방식을 허용한다는 직관을 활용합니다. - 대규모 실증 평가를 통해, self-consistency가 chain-o..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google Research, Brain team] - LLM이 reasoning traces와 task-specific actions를 interleaved manner로 생성하도록 하는 ReAct - chain-of-thought (CoT) reasoning에서 나타나는 hallucination & error propagation 문제를 극복 - 두 개의 interactive decision making benchmarks (ALFWorld & WebShop)에서 ReAct가 다른 방법들보다 우월 1. Introduction 인간 지능의 고..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. (Language & Knowledge Lab의 Retreival 관련) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ [Google Research] - string query를 관련 docids에 직접 매핑하는 text-to-text 모델을 사용하는 paradigm 제시, Differentiable Search Index (DSI) - dual encoder 모델과 같은 베이스라인을 압도했을 뿐만 아니라 zero-shot setup에서도 강한 일반화 능력을 보여줌 배경 Information Retrieval (IR) 시스템에 대해 'retrieve-then-rank' 전략이 주로 사용됨 유저의 query q와 관련성이 높은 문서 ..
최근(2023.10)에 나온 논문들을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (2023.05) [Google Research] Multi-head Attention(MHA)만큼의 품질이 보장되고, Multi-query Attention(MQA)만큼의 속도를 낼 수 있는 Group-query Attention(GQA)를 제안 기존 Transformer 아키텍쳐에서 사용되는 Multi-head Attention의 경우 메모리 사용량이 지나치게 많이 요구되어 이를 적용하기가 점점 더 어려워지는 추세였음 이..
최근(2023.09)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google Research] LLM을 요약 태스크에 대해 학습시킬 때 반영하는 '사람'의 선호 대신 'AI'의 선호를 반영하는 RLAIF 배경 ChatGPT와 같은 LLM들이 주목을 받게 된 데 가장 큰 기여를 한 것은 RLHF(Reinforcement Learning with Human Feedback)이라고 해도 과언이 아닐 것입니다. reward 모델이 사람의 선호를 학습하고, 이를 바탕으로 언어 모델을 추가 학습하는 방식입니다. 그런데 이러한 방식 역시 사람의 선호를 나타낼 수 있는 pair 데이터셋이 필요하기 때문에, L..