관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [LK Lab, KAIST] - prompt를 LM의 파라미터에 주입하는 방식, Prompt Injection (PI)를 제안 - novel distillation approach, Pseudo-INput Generation (PING)를 제안 - prompt를 input에 prepend하는 기존 방식 대비 우수한 성능 달성 배경 input에 prompt를 attach함으로써(prefixes) LM을 특정 태스크에 맞게 조정하는 것이 가능 그러나 이처럼 prompt와 input을 단순 concatenate하는 prompt-dependent 방식은..
LLM
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [LK Lab, KAIST] - LLM에게 negated prompts를 제공하면 모델 사이즈에 성능이 반비례하는 inverse scaling law를 보임 - (1) pretrained LM (2) instruct (3) few shot (4) fine-tuned 비교 배경 LM이 다양한 downstream tasks에 대해 prompt를 통해 fine-tuning되어 unseen tasks에 대한 performance가 뛰어나다는 것이 알려짐 LM은 뛰어난 능력을 바탕으로 마치 사람의 뇌처럼 여러 로봇을 조작하는 등 중심 역할로 자리잡는 경우..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Tencent AI Lab] - noisy & irrelevant document, 그리고 unknown scenarios에 대한 RALM의 robustness를 개선한 approach, Chain-of-Noting (CoN) - ChatGPT를 사용하여 training data 생성 후 LLaMA-2 7B 모델 학습 배경 LLM의 능력을 활용하는 방법으로 외부 knowledge source를 이용하는 RAG 방식이 도입. Retrieval-Augmented Language Models (RALMs) Information Retrieval (I..
관심있는 최신 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Singapore University] - valid & invalid reasoning demonstrations을 함께 제공하여 reasoning mistakes를 줄이는 approach, Contrastive Chain-of-Thought - contrastive demonstration을 자동적으로 구축하는 방법을 제시 배경 LLM과 관련하여 모델 사이즈를 키우는 것만으로는 complex reasoning tasks에 대한 좋은 일반화 성능을 기대하기 어려움 invalid reasoning demonstration을 포함하는 것이 ..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research, University of illinois] - multiple personas로 multi-turn self-collaboration을 통해 LLM을 cognitive synergist으로 변환, Solo Performance Prompting (SPP) - SPP를 통해 internal knowledge acquisition 능력을 향상시키고, hallucination을 줄이며, reasoning capabilities를 유지 배경 LLM은 여전히 knowledge-intensive & reasoning-i..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ [BigScience] - 사전학습된 encoder-decoder 모델 T5를 explicit multi-task learning으로 fine-tuning한 모델, T0 - 다양한 태스크에 대한 zero-shot 성능 일반화 & prompt를 구성하는 word의 다양성 확보 (robustness) 배경 LLM이 새로운 태스크에 대해 뛰어난 zero-shot 성능을 보이는 것이 확인됨 그러나 학습 때 접하지 않았던 태스크에 대해 좋은 성능을 보이기 위해선 1) 충분히 큰 사이즈의 모델이 필요하고 2) prompt를 구성하는 단어에 영향을 받지 않게 만들어야 함 지금까지는 multitask ..