관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ Abstract [NLP Group, Fudan University] usechatgpt init success 목적: 대규모 언어 모델(Large Language Models, LLMs)의 인간 지시 사항과의 정렬 및 다운스트림 작업에서의 성능 향상을 위한 중요한 단계로서, 감독된 미세 조정(Supervised Fine-Tuning, SFT)의 중요성을 강조. 문제점: 더 넓은 범위의 다운스트림 작업에 모델을 정렬하거나 특정 작업의 성능을 크게 향상시키려는 경우, 미세 조정 데이터의 대규모 증가가 필요해지는데, 이는 LLM에서 저장된 세계 지식을 잊어버리는 문제(wor..
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ Abstract usechatgpt init success [Google Research, Google DeepMind] 주요 내용: 복잡한 자연어 질문에 답하기 위해 다단계 추론과 외부 정보 통합이 필요합니다. 이를 위해 대규모 언어 모델(LLM)과 지식 검색을 결합한 시스템이 개발되었으나, 이들 시스템은 다양한 실패 사례를 겪고 있습니다. 문제점: 이러한 시스템들은 외부 지식과의 상호작용이 비차별화(non-differentiable)되기 때문에 직접 end-to-end로 훈련시켜 실패를 수정할 수 없습니다. 해결 방안: 이를 해결하기 위해 외부 지식에 대해 추론하고 ..
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google DeepMind, Google Research] Abstract 주요 내용: 이 논문은 인간의 선호도에 맞춰 대규모 언어 모델(Large Language Model, LLM)의 출력 품질을 향상시키기 위해 인간 피드백으로부터의 강화학습(Reinforcement Learning from Human Feedback, RLHF) 방법을 제안합니다. 제안하는 알고리즘의 이름은 Reinforced Self-Training (ReST)이며, 이는 강화학습(Reinforcement Learning, RL)의 성장 배치 방식에 ..
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google Research, Brain Team] - 본 논문에서는 chain-of-thought 프롬프팅에 사용되던 단순한 greedy decoding 대신 새로운 디코딩 전략인 'self-consistency'를 제안합니다. - 이 전략은 greedy 방식 대신 다양한 추론 경로를 샘플링한 후 가장 일관성 있는 답변을 선택하는 방식입니다. 이는 복잡한 추론 문제가 일반적으로 정확한 답을 이끌어내는 다양한 사고 방식을 허용한다는 직관을 활용합니다. - 대규모 실증 평가를 통해, self-consistency가 chain-o..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google Research, Brain team] - LLM이 reasoning traces와 task-specific actions를 interleaved manner로 생성하도록 하는 ReAct - chain-of-thought (CoT) reasoning에서 나타나는 hallucination & error propagation 문제를 극복 - 두 개의 interactive decision making benchmarks (ALFWorld & WebShop)에서 ReAct가 다른 방법들보다 우월 1. Introduction 인간 지능의 고..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft, Israel] - LLM이 사전학습 동안 보지 못했던 정보를 추가 습득하도록 하는 방식 중 fine-tuning과 retrieval-augmented generation (RAG)를 비교 - 두 방식 중에서 RAG가 훨씬 성능이 좋은 것으로 확인됨. 심지어 base with RAG > fine-tuned with RAG 1. Introduction LLM은 다양한 도메인의 지식을 보유하고 있음이 잘 알려져 있으나 여전히 명확한 한계가 존재함 static하다, 즉 새로운 정보가 업데이트 되지 않는다 특수한 도메인의 전문 지식은..