최근(2023.09)에 나온 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Google Research]
LLM을 요약 태스크에 대해 학습시킬 때 반영하는 '사람'의 선호 대신 'AI'의 선호를 반영하는 RLAIF
- 배경
ChatGPT와 같은 LLM들이 주목을 받게 된 데 가장 큰 기여를 한 것은 RLHF(Reinforcement Learning with Human Feedback)이라고 해도 과언이 아닐 것입니다.
reward 모델이 사람의 선호를 학습하고, 이를 바탕으로 언어 모델을 추가 학습하는 방식입니다.
그런데 이러한 방식 역시 사람의 선호를 나타낼 수 있는 pair 데이터셋이 필요하기 때문에,
LLM이 학습하기에 충분한 양의 데이터를 확보하기 위해서는 너무나 많은 비용과 시간을 필요로 한다는 문제점이 있습니다.
이러한 문제를 해결하기 위해 이미 고도화된 LLM을 활용하는 방식이 연구되고 있습니다.
본 논문에서는 Human의 Feedback을 반영하여 강화학습(RL)하는 방식을 AI의 Feedback을 반영하여 학습하는 것으로 대체함으로써 이러한 방법론의 scaling의 가능성을 엿보고 있습니다.
- 특징
기본적으로 알아야 하는 개념들이 있습니다.
이 포스팅에서 다루기는 어려우니 논문을 직접 참고하시거나 관련 키워드를 구글링 해보시길 추천드립니다.
논문에서 제시하는 기본 배경 지식은 'Supervised Fine-tuning(SFT), Reward Modeling(RM), Reinforcement Learning(RL)' 입니다.
본 연구에서는 쉽게 활용 가능한(off-the-shelf) LLM을 이용합니다.
LLM에 주어지는 input은 다음 네 가지 특징을 반영한 구조를 갖춥니다.
1) Preamble : 태스크에 대한 간단한 소개
2) Few-shot exemplars(optional) : text, pair of summaries, a chain of thought, preference judgement 예시
3) Sample to annotate : labeled 되어야 하는 text와 summary 쌍
4) Ending : LLM에게 끝을 알리는 prompt. 예를 들어 'Preferred Summary=')
학습 과정에서의 특징들은 다음과 같습니다.
1) Addressing Position Bias : 모든 pair에 대해 두 개의 inference를 생성하고, 여기서 얻어지는 결과를 평균
2) Chain-of-thought Reasoning : prompt의 끝 부분을 CoT를 유도할 수 있는 것으로 대체
3) Reinforcement Learning from AI Feedback : RM으로부터 얻어진 reward score에 대해 cross-entropy loss를 적용
평가는 다음 세 개의 metric으로 이뤄집니다.
1) AI Laber Alignment : AI의 선호가 사람의 선호와 얼마나 일치하는지를 구합니다.
2) Pairwise Accuracy : 학습된 모델이, 학습되지 않은 인간의 선호에 대해 얼마나 정확한지를 계산합니다.
3) Win Rate : 두 개의 generation이 주어졌을 때, 어떤 것이 더욱 선호되는지를 파악하여 비율을 구합니다.
실험 결과 중 핵심을 정리하면 다음과 같습니다.
1) RLAIF는 RLHF와 거의 유사한 수준의 성과를 나타낸다.
2) RLAIF는 SFT(Supervised Fine-Tuning)보다 더 좋은 성과를 보인다.
3) RLAIF와 RLHF는 SFT 대비 더 긴 요약문을 만들어내는 경향이 있다.
- 개인적 감상
LLM이 큰 주목을 받게 된 이후로 데이터셋 제작에 대한 연구도 정말 끊이지 않는 것 같습니다.
이름부터 RLAIF라는 것도 굉장히 재밌던 것 같고(어그로 지렸다) 방식에 대해서도 충분히 납득할만한 것 같습니다.
특히 AI를 활용하는 방식이라면 논문에서 언급한 바와 같이 scaling이 가능하기 때문에 앞으로의 성과도 기대가 됩니다.
다만 논문 저자가 스스로 한계로 밝힌 것처럼 summarization 태스크 한정이라는 것이 아쉽습니다.
정확히는 왜 이 태스크로 한정하여 실험했는지 잘 납득이 가지 않았습니다.