관심있는 NLP 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[KAIST, LG AI Research]
- input과 label이 주어지면 instruction을 예측하도록 하는 meta-training method, Flipped Learning
- unlikelihood loss를 추가 (weighted sum with likelihood loss)
- unseen labels을 지닌 task에서 큰 성능 향상을 보임
- 배경
- 기존 LM (Language Models)은 input과 instruction이 주어지면 label을 예측하는 방식으로 학습을 진행
- 학습 때와 다른 label을 지닌 데이터에 대한 추론 성능이 떨어짐. 즉 일반화 성능이 좋지 않음
- Contributions
- inputs과 label이 주어졌을 때, task instruction의 likelihood를 계산하는 novel meta-training method를 제안
- 여기에는 unlikelihood loss가 추가되었음
- 14개의 BIG-Bench 벤치마크 데이터셋에 대해 평가 완료
- 특히 meta-training 당시에 보지 못했던 label을 지닌 데이터에 대해 뛰어난 일반화 성능을 보임
- inputs과 label이 주어졌을 때, task instruction의 likelihood를 계산하는 novel meta-training method를 제안
- Related Works
- Meta-Training: multitask fine-tuning on various downstream taks
- Noisy Channel Prompting: input/output space를 전치. 일반적으로 either training or inference에 대해 적용
- Label Generalization: meta-trained LM은 label surface form에 민감하여 일반화 성능이 낮다는 문제가 존재
- Flipped Learning
- Inference of Probabilistic LMs
- Direct: input, instruction이 주어졌을 때, label일 확률이 가장 높은 것
- Channel: label이 주어졌을 때, instruction, input일 확률이 가장 높은 것
- Flipped Learning: input, label이 주어졌을 때, instruction일 확률이 가장 높은 것
- Channel과 Flipped Learning은 사건이 서로 독립이고, 특정 확률이 uniform distribution을 따른다고 가정하여 성립
- Meta-Training Using Flipped Learning
- L_LM: t 시점에서 input, label, t-1 시점까지의 instruction이 주어졌을 때 instruction일 확률 (likelihood)
- L_UL: t 시점에서 input, wrong label, t-1 시점까지의 instruction이 주어졌을 때 instruction이 아닐 확률
- L_UL에 가중치를 곱하여 더한 것이 objective로 정의됨
- Inference of Probabilistic LMs
- Baselines
- T0-3B, Direct, Channel, Flipped-3B, T0-11B, Flipped-11B, GPT-3, PaLM
- 🧐
- free-form generation의 문제에 관한 unseen task에 대해서는 다뤄보지 않음
- label이 있어야 조건부 확률도 구하고 unlikelihood도 구하는 위 방식을 적용 가능할 것이므로 본 연구에서는 다뤄보지 않은 것 같음.
만약 이런 유형의 태스크에 대한 평가를 내려야 한다면 이때야 말로 LM-based evaluation을 진행하는 수밖에 없지 않을까..
특히 label의 분포가 다른 상황에 대한 강건함이 보장되는지 확인하고 싶다면, knowledge-intensive task에 대한 performance를 확인해 볼수도 있을 것 같다.
대신 classification의 문제를 free-form으로 접근한다는 것인데, 관련된 방식이 시도된 적 있는지도 찾아볼 가치가 있을 것 같다.