[Naver, KAIST, SNU]
- human annotation이나 proprietary LLM에 의존하지 않고 합성 데이터를 이용하는 alignment learning framework
- vanilla LLM으로부터의 output을 대조시키는 방식으로 reward modeling을 진행
- RM을 이용하여 high-quality demonstration에 대해 supervised policy를 학습
- model을 강화학습을 통해 optimize
- 배경
- Alignment learning은 large language model의 성능 향상에 큰 영향을 주었지만 관련 데이터 확보나 학습 관점에서 비용이 너무 많이 든다는 문제점이 존재
- 본 논문에서는 합성 데이터를 생성함으로써 위 방식의 단점을 극복하고자 함
- Contributions
- sythetic feedback을 도입함으로써 novel alignment learning framework를 제시
- 이 방식으로 학습된 모델 ALMoST는 human value에 더 잘 alingn하는 경향을 보임
- Method
- Step 1: Reward Modeling with Synthetic Feedback
- HHH(Helpful, Harmless, Honest) prompt를 사용
- Larger Model > Smaller Model
- More few-shots > Less few-shots
- Better demonstration > Worse demonstration
- Step 2: Supervised Fine-Tuning
- Reward-Model-guided Self-Play (RMSP)
- RMSP를 사용하여 20K의 고품질 demonstration을 생성
- LLaMA-7B에 대해 fine-tuning
- Stpe 3: Reinforcement Learning from Synthetic Feedback (RLSF)
- Proximal Policy Optimization (PPO)를 사용하여 expected reward를 최대화하는 방식으로 학습
- Step 1: Reward Modeling with Synthetic Feedback
- Dataset
- Static HHH alignment & TruthfulQA
- Vicuna Questions
- Human Evaluation on Vicuna Questions
- Baselines
- Alpaca, Vicuna, Dolly-v2, OpenAssistant (Oasst)
- 🧐
- knowledge intensive task에 대한 performance가 떨어지는 'alignment tax' 문제
- Step 2에서 high-quality demonstration을 생성할 때, 다른 기준을 추가하는 것은 어떨까?
위와 같은 상황은 대화 및 설명 능력은 좋아졌으나 기존의 parametric knowledge를 잃는 trade-off 관계를 뜻한다.
그렇다면 fine-tuning에 활용되는 데이터셋을 생성하는 방식을 변경하는 것이 가장 단순한 방법이 아닐까 싶다.
이를 테면 데이터셋의 다양성(지식으로 간주되는 다양한 범주를 아우르는가)을 확보한다거나, reddit 같은 곳에서 수준 높은 주제의 질의를 수집하여 추가 demonstration을 생성하는 방식도 떠올려 볼 수 있을 것 같다.
출처 : https://arxiv.org/abs/2305.13735