관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. (Language & Knowledge Lab의 Retreival 관련)
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[KAIST]
- new instruction-tuning dataset, CoT Collection
- 1.84 million rationales across 1,060 tasks
- 100B 이하 사이즈의 LM을 CoT Collection으로 instruction tuning하여, 4개의 domain-specific tasks에 대해 강한 few-shot learning 성능을 보임
- 배경
- Chain-of-Thought (CoT) prompting을 이용하여 LM이 여러 태스크에서 훌륭한 성능을 보일 수 있도록 만들 수 있음
- 기존 CoT 방식으로는 single task를 해결하기 때문에 일반화 성능이 부족하다는 한계
- Related Works
- Chain-of-Tought (CoT) Prompting: 모델로 하여금 정답 이전에 rationale을 생성하도록 만드는 기법
- Improving Zero-shot Generalization: instruction tuning은 여러 unseen tasks에 대한 일반화 성능을 크게 향상
- Improving Few-Shot Learning: parameter efficient fine-tuning (PEFT) methods가 제안됨
- The CoT Collection
- instruction I와 instance z를 입력 X로 제공하면 in-context learning (ICL)을 활용하여 rationale r을 획득
- Source Dataset Selection: 1,060 tasks를 선정
- 길이가 너무 긴 output 제외
- publicly available Dataset만 이용 가능
- input & output이 huggingface dataset 형식에 맞지 않으면 제외
- 비슷한 형태의 데이터가 존재하면 'P3, SNI, Flan' 순서의 우선순위
- sentiment analysis, sentence completion, coreference resolution, word disambiguation로부터 생성되는 rationale은 짧고 유익하지 않은 편이라 제외
- Creating Demonstrations for ICL
- 각 task t를 유사한 task format 끼리 그룹을 지어 T_k로 할당
- 26개의 task group을 형성
- Rationale Augmentation
- OpenAI Codex 사용하여, (X, y)가 주어졌을 때 rationale r을 생성
- demonstration D 내에서 rationale 앞에 주어진 label을 정렬하는 것이 좋은 퀄리티의 rationale을 생성하는데 중요
- Evaluation
- Direct Evaluation vs. CoT Evaluation
- Zero-shot Generalization
- 1) CoT Fine-tuning with 1,060 CoT Tasks
- 2) CoT Fine-tuning with 163 CoT Tasks (T0 Setup)
- 3) Multilingual Adaptation with CoT Fine-tuning
- Few-shot Generalization
- 1) Effect of LoRA: full fine-tuning보다
- 2) Fine-tuning vs. CoT Fine-tuning
- 3) Fine-tuning vs. ICL
- Results
- 넓은 범위의 태스크를 학습시키는 것이 instance의 개수를 늘리는 것보다 더 중요
- CoT-T5가 학습한 태스크에 대해 in-domain accuracy를 꾸준히 향상시키는 방법임이 확인됨