관심있는 NLP 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[OpenAI]
- strong pretrained model을 weak supervisor를 통해 fine-tuning 하더라도 supervisor보다 뛰어난 성능을 보인다
- 이를 weak-to-strong generalization 현상이라고 부른다
- 미래에는 superhuman model을 학습하기 위해 RLHF와 같은 테크닉들을 적용할 수 없을 것이다
1. Introduction
오늘날 많은 언어 모델들은 Reinforcement Learning from Human Feedback(RLHF)와 같은 테크닉들을 통해 학습되고 있습니다.
ChatGPT가 뛰어난 성능으로 주목을 받게 된 배경에는 RLHF가 자리잡고 있었죠.
하지만 앞으로 다가올 superhuman model(AGI를 가정하는 것 같습니다)을 생각해본다면 이 모델의 성능을 사람이 평가한다는 것은 어불성설인 것 같습니다.
사람이 할 수 있는 것보다 뛰어난 것들을 만들어내는데 이를 어떻게 평가할 수 있을까요?
예를 들어 수백 페이지에 달하는 문서 혹은 코드를 삽시간에 만들어 냈다고 하면, 사람이 이러한 결과물의 퀄리티나 완성도를 평가하는 게 가능하겠느냐는 말입니다.
결국 미래에는 위 그림의 중간처럼 사람이 자신의 능력치보다 뛰어난 능력을 가진 모델을 teaching해야 하는 상황이 올 것이고, 여기서 착안하여 weak 모델이 strong 모델을 학습하는 방법론을 제안하게 됩니다.
여기서의 핵심은 크게 두 가지라고 볼 수 있을 것 같습니다.
첫째는, strong 모델이 이미 알고 있는 것을 잘 끄집어(?)내 줄 수 있다는 것,
둘째는, strong 모델이 weak 모델의 오류를 단순히 imitating하지 않도록 만들어야 한다는 것
입니다.
저자가 밝힌 세 개의 main findings는 다음과 같습니다.
1. Strong pretrained models naturally generalize beyond their weak supervisors
2. Naively finetuning on weak supervison is not enough
3. Improving weak-to-strong generalization is tractable
2. Related Work
- Weakly-supervised learning
- 모델 학습에 unreliable label을 사용하는 speical case를 뜻합니다.
- 관련해서는 Semi-supervised learning 등을 생각해볼 수 있습니다.
- Student-teacher training
- 우선 teacher를 학습한 뒤 teacher의 pseudo-label을 semi-supervised learning에 활용하여 student를 학습시킵니다.
- 본 논문에서는 teacher와 student 사이의 gap이 큰 케이스를 다루고 있습니다.
- 즉, super weak teacher & strong student의 관계입니다.
- Robustness of pretraining and finetuning
- out-of-distribution에 해당하는 데이터에 대한 일반화 성능을 확인합니다.
- Debiasing
- weak labels는 모델의 capacity 부족으로 인해 특정한 bias를 포함하고 있을 가능성이 높습니다.
- 본 논문에서는 어떤 종류의 bias가 존재하는지 모르는 상황을 다루고 있습니다.
- 관련 키워드로 Group Distributionally Robust Optimization이 있습니다.
- Imitation and prefrerence learning
- alignment의 목표는 already-capable model을 우리가 원하는대로 조정하는 것입니다.
- 관련 키워드로 RLHF를 들 수 있습니다.
- Scalable oversight
- Knowledge elicitation and honesty
- 관련 키워드로 Eliciting Latent Knowledge (ELK)가 있습니다.
3. Methodology
데이터셋과 metric을 위해 다음 세 가지 내용을 구성합니다.
1) Create the weak supervisor: small pre-trained model을 ground truth labels로 학습하여 weak performance, weak labels를 만들어 냅니다.
2) Train a strong student model with weak supervision: strong model을 weak labels로 학습하여 weak-to-strong performance를 만들어 냅니다.
3) Train a strong model with ground truth labels as a ceiling: strong model을 ground truth로 fine-tuning하여 성능 최고치를 만들어 냅니다. 이를 strong ceiling performance라고 칭합니다.
위 세 가지를 이용하여 performance gap recovered (PGR)을 metric으로 정의하는데 아래 그림과 같습니다.
weak supervision을 통해 strong ceiling performance까지의 성능이 얼마나 복구되었는지에 대한 비율을 구하는 metric으로 이해할 수 있습니다.
저자는 이와 같은 setup의 장점을 다음과 같이 정리했습니다.
1) scaling law에 관한 연구를 수행하기 좋은 편이고, SoTA 수준의 모델이 필요하지 않다. 또한 사람을 필요로 하지 않는 방식이라 feedback loop또 바르게 돌아간다.
2) 다양한 범위의 환경에 적용 가능하다.
3) superhuman model이 등장하기 이전인 지금에도 충분히 유용하다.
반대로 단점은 다음과 같습니다.
1) Imitation saliency: strong 모델이 weak 모델의 잘못된 예측을 imitate 할 수 있다.
2) Pretraining leakage: 사전학습에 사용된 데이터에 이미 사람이 평가하고자 하는 내용이 들어가있을 가능성이 높다.
4. Main Results
크게 세 가지 태스크로 weak-to-strong generalization을 검증합니다.
- Popular natural language processing benchmarks: 22개의 NLP 분류 데이터셋을 활용합니다. 여기서는 이진 분류 태스크로 변환하여 검증을 진행합니다.
- Chess puzzles: 주어진 상황에서 첫 move를 예측하는 태스크를 수행합니다. 이때 weak model의 temperature는 0으로 설정합니다.
- ChatGPT reward modeling: RLHF에 사용되는 reward 모델을 학습하는 태스크를 수행합니다. ChatGPT의 reward model을 학습하는 데 사용되었던 proprietary 데이터셋을 활용했다고 합니다.
결과 및 결과에 대한 해석을 간단히 정리해보도록 하겠습니다.
- Naively finetuning on weak labels
- PGR이 전반적으로 양수임을 확인했다고 합니다. 즉, weak labels를 사용했다고 하더라도 어쨌든 성능이 향상된다는 뜻입니다.
- NLP 분류 태스크에서는 20% 정도의 performance gap이 recovered 되었습니다.
- 하지만 chess puzzle의 경우 seak supervisor의 크기가 충분히 크지 않은 경우 PGR이 거의 0이라고 합니다.
- ChatGPT reward model setting에서는 weak-to-strong generalization이 거의 효과를 보지 못했습니다.
이번에는 태스크별로 generalization 성능을 향상시킬 수 있었던 특정 테크닉들에 대해 간단히 정리해보겠습니다.
- Boostrapping
- chess puzzle setting에서는 bootstrapping이 도움이 되었다고 합니다. 이를 적용한 경우 모델의 정확도가 monotonically 향상되는 것이 확인되었습니다.
- 하지만 RM에는 적용하기 어렵습니다.
- Auxiliary confidence loss
- NLP 태스크에서 처음엔 모델 정확도가 그렇게 높지 않았는데, loss term 하나를 추가함으로써 성능이 비약적으로 향상했습니다. 이는 strong 모델이 단순히 weak 모델을 imitate하지 않게 될 수 있다는 것을 보여줍니다.
- Overfitting to Weak Supervision
- 반복적으로 언급했던 것처럼 strong 모델이 weak model의 실수나 잘못된 예측에 대해 overfit 하는 것이 중요한 문제입니다. 이를 해결하기 위해 loss term을 추가하기도 했다고 언급했습니다.
- 어쨌든 분명한 것은 이러한 현상(overfitting)이 발생하고 있다는 것이기 때문에 이를 완화할 수 있도록 early stopping이나 regularization과 같은 전략을 적용하는 것이 유의미할 수 있다고 합니다.
- 같은 관점에서 student-supervisor agreement 비율을 확인해본 결과, auxiliary confidence loss를 적용하면 이 비율이 떨어지는 것을 알 수 있습니다. 즉, loss를 추가함으로써 imitating을 막을 수 있게 된 것입니다.
이외에도 RM 모델링에 대한 추가 실험, linear probing에 관련된 내용 등이 있는데 여기서는 다루지 않겠습니다.
작년에 이 논문을 살짝 봤었다가 최근 다시 정독하고 정리하게 되었는데, 확실히 OpenAI는 생각하는 게 다른가..? 싶은 생각이 절로 드는 연구 주제였던 것 같습니다.
출처 : https://arxiv.org/abs/2312.09390