관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Google DeepMind, Google Research]
Abstract
- 주요 내용:
- 이 논문은 인간의 선호도에 맞춰 대규모 언어 모델(Large Language Model, LLM)의 출력 품질을 향상시키기 위해 인간 피드백으로부터의 강화학습(Reinforcement Learning from Human Feedback, RLHF) 방법을 제안합니다.
- 제안하는 알고리즘의 이름은 Reinforced Self-Training (ReST)이며, 이는 강화학습(Reinforcement Learning, RL)의 성장 배치 방식에 영감을 받아 개발되었습니다.
- ReST의 특징:
- ReST는 초기 LLM 정책으로부터 데이터셋을 생성하고, 이를 오프라인 강화학습 알고리즘을 사용해 LLM 정책을 개선하는 방식입니다.
- 일반적인 온라인 RLHF 방법보다 효율적이며, 오프라인에서 훈련 데이터셋을 생성하여 데이터 재사용이 가능합니다.
- 응용 및 성과:
- ReST는 모든 생성 학습 설정에 적용 가능하나, 이 논문에서는 기계 번역에의 응용에 중점을 두었습니다.
- 기계 번역 벤치마크에서 자동 측정 지표 및 인간 평가를 통해 ReST가 번역 품질을 현저히 향상시키는 것을 확인했습니다.
1. Introduction
- 대규모 언어 모델(Large Language Models, LLMs)의 성과
- LLMs는 고품질 텍스트 생성과 다양한 언어 작업 해결에 인상적인 능력을 보여주었습니다. (Brown et al., 2020; Bubeck et al., 2023; Rae et al., 2021)
- 이들은 대량의 텍스트와 계산을 사용하여 다음 토큰의 가능성을 극대화하는 방식으로 훈련됩니다. (Hoffmann et al., 2022; Srivastava et al., 2022)
- 문제점과 인간 피드백을 통한 강화학습(RLHF)
- Perez et al. (2022)에 따르면, 높은 가능성의 텍스트 생성이 반드시 인간 선호와 일치하지 않습니다.
- 인간 선호를 반영하지 않은 LLMs는 해로운 결과를 초래할 수 있는 부적절한 내용을 생성할 위험이 있습니다.
- RLHF는 인간 선호를 사용하여 이러한 정렬 문제를 해결하려는 방법입니다. (Glaese et al., 2022; Stiennon et al., 2020; Wu et al., 2021)
- 온라인 RL과 오프라인 RL의 한계
- 온라인 RL 방법은 계속되는 새로운 샘플 처리에 따른 계산 비용이 제한 요소입니다.
- 오프라인 RL은 고정된 데이터셋에서 학습하므로 계산 효율성이 높고 보상 해킹에 덜 취약합니다.
- 그러나 오프라인 RL의 정책 품질은 사용된 데이터셋의 특성에 크게 의존합니다.
- Reinforced Self-Training (ReST) 방법론 소개
- ReST는 내부 루프(Improve)에서 고정된 데이터셋에 대한 정책을 개선하고 외부 루프(Grow)에서 최신 정책으로부터 샘플링하여 데이터셋을 확장합니다.
- 이 접근법은 온라인 RLHF 방법과 오프라인 RL의 장점을 결합하여 계산 부담을 줄이고, 정책 품질을 향상시키며, 데이터 품질 검사와 보상 해킹 문제 진단을 용이하게 합니다.
- 기계 번역 벤치마크에 대한 실험
- ReST는 기계 번역, 특히 조건부 언어 모델링 문제에 적용되었습니다.
- 실험은 IWSLT 2014와 WMT 2020 벤치마크를 포함하여 다양한 기계 번역 벤치마크에서 진행되었습니다.
- ReST는 보상 모델 점수, 테스트 및 검증 세트에서의 성능, 인간 평가자에 의한 번역 품질 면에서 감독 학습 기준을 뛰어넘는 결과를 보여주었습니다.
2. Preliminaries
- 조건부 언어 모델
- 조건부 언어 모델은 주어진 문맥(또는 소스 입력) 𝒙에 기반하여 출력 시퀀스 𝒚를 생성합니다.
- 토큰 𝑥𝑙, 𝑦𝑡는 선택된 어휘에 속합니다.
- 언어 생성 정책 𝜋는 자동 회귀 모델에서 조건부 확률 분포로 특징지어지며, 𝜃에 의해 매개변수화됩니다.
- 데이터 분포 및 데이터셋
- 𝑝(𝒙, 𝒚)는 데이터 분포를 나타내며, 주어진 데이터셋 D는 이 분포에서 샘플링된 예시들로 구성됩니다.
- D = { (𝒙𝑖 , 𝒚𝑖 )|𝑁𝑖=1 }는 𝒙𝑖 ∼ 𝑝(𝒙), 𝒚𝑖 ∼ 𝑝( 𝒚|𝒙 = 𝒙𝑖) 조건을 만족하는 샘플들로 이루어져 있습니다.
- 감독 정책과 행동 복제
- 감독 정책은 음의 로그 가능도(Negative Log Likelihood, NLL) 손실을 최소화하여 훈련됩니다.
- LNLL (𝜃) = −𝔼(𝒙,𝒚)∼D "∑︁𝑇 𝑡=1 log 𝜋𝜃( 𝑦𝑡 | 𝒚1:𝑡−1, 𝒙) 방식으로 표현됩니다.
- NLL 손실로 훈련된 모델은 강화학습 문헌에서 행동 복제(Behavioral Cloning, BC)라고 불립니다. (Pomerleau, 1989)
3. Reinforcement Self-Training (ReST)
- ReST 알고리즘 개요
- ReST는 언어 모델의 출력을 인간 선호도와 일치시키는 강화학습 방법입니다.
- 학습된 보상 함수를 사용하여 시퀀스에 대한 인간 선호도를 모델링합니다.
- 조건부 언어 모델링에 대한 마르코프 결정 과정에서 상태는 부분 시퀀스이고 행동은 생성된 토큰입니다.
- 데이터셋 성장과 정책 개선 분리
- ReST는 전형적인 RL 파이프라인의 데이터셋 성장과 정책 개선을 오프라인 단계로 분리합니다.
- 초기 모델은 NLL 손실을 사용하여 주어진 데이터셋에서 입력 시퀀스를 출력 시퀀스로 매핑하여 훈련됩니다.
- Grow 단계에서 새로운 데이터셋을 생성하고, Improve 단계에서 이 데이터셋을 사용하여 정책을 미세 조정합니다.
- Grow 단계
- Grow 단계는 RL에서 데이터 생성 단계에 해당합니다.
- 현재 정책에서 많은 출력 시퀀스를 샘플링하여 증강된 데이터셋을 생성합니다.
- 새로운 데이터셋은 보상 함수로 평가되며, 임계값 이상의 보상을 받은 데이터 포인트는 정책 업데이트에 사용됩니다.
- Improve 단계
- Improve 단계(정책 개선 단계)에서는 새로운 데이터셋을 사용하여 정책을 미세 조정합니다.
- 필터링 함수는 보상이 특정 임계값 이상인 샘플만을 포함하도록 정의됩니다.
- 이는 V-MPO나 오프라인 액터-크리틱 같은 다양한 오프라인 RL 손실로 현재 최고 정책을 훈련하는 방식입니다.
- 필터링 임계값 증가
- Improve 단계를 반복할 때, 필터링 임계값을 증가시킵니다.
- 이는 품질이 높아지지만 크기가 감소하는 데이터 하위 집합을 만듭니다.
- 소규모 데이터셋에 대한 과적합을 방지하기 위해, 각 새 정책은 이전 정책에서 더 낮은 학습률로 미세 조정됩니다.
- Improve 단계의 확률적 해석
- Improve 단계에서 LNLL 손실을 사용한 경우, 그라디언트의 표현은 정책 그라디언트의 온라인 및 오프라인 형태를 모두 포함합니다.
- 이 접근법은 자기 훈련 기술과 유사하며, ReST의 인구 해석을 부록에서 제공합니다.
- 결론
- 다음 섹션에서는 손실 선택, 필터링 함수 및 임계값, 탐색 데이터가 결과 정책의 성능에 어떻게 영향을 미치는지 탐구합니다.
4. Experiments and analysis
- 기계 번역을 위한 실험 설정
- 조건부 언어 모델링에 영향을 미치는 응용 분야로서 기계 번역을 선택했습니다.
- 실험은 IWSLT 2014, WMT 2020, 그리고 Web Domain(내부 벤치마크) 데이터셋에서 수행되었습니다.
- 실험에는 참조 없는 보상 모델인 Metric X를 사용하여 평가하였습니다.
- ReST의 다양한 변형 실험
- ReST의 변형은 손실 유형, Grow 단계 수, Improve 단계 수로 명명되었습니다.
- 예를 들어, GOLD G=1 I=2는 하나의 Grow 단계와 두 번의 Improve 단계를 가진 ReST 변형을 나타냅니다.
- ReST의 성능 분석
- 여러 Improve 단계를 거친 ReST는 모든 데이터셋에서 모델의 성능을 향상시켰습니다.
- 추가적인 Grow 단계는 IWSLT 2014와 Web Domain 데이터셋에서 성능 향상에 기여했습니다.
- ReST는 감독 학습보다 더 높은 평균 보상을 달성했으며, 이는 다양한 데이터셋과 언어 쌍에서 일관되게 관찰되었습니다.
- 단일 ReST 단계에 대해 BC 손실이 다른 손실 함수보다 우수한 성능을 보였습니다.
- Best-of-N 샘플링의 효과
- Best-of-N 샘플링 기법을 사용한 ReST는 추론 시 더 높은 보상을 달성했습니다.
- 이 기법은 ReST가 샘플 다양성에 대한 강화학습의 한계를 극복할 수 있음을 보여줍니다.
- 온라인 RL과의 비교
- ReST는 PPO를 사용한 온라인 RL과 비교되었으며, ReST가 보상 모델 점수를 향상시키면서 다른 지표의 성능 저하를 방지하는 데 효과적임을 보여주었습니다.
- 인간 선호도에 대한 ReST의 영향
- 인간 평가자에 의한 평가에서 ReST 변형은 BC 기준을 상당히 능가했습니다.
- 그러나 학습된 보상과 인간 점수의 증가는 일치하지 않았으며, 이는 보상 모델이 인간 선호도를 완벽히 대변하지 못하기 때문입니다.
- ReST는 보상 모델을 개선하고 인간 선호도와의 일치를 높이기 위해 여러 접근 방식을 시도했습니다.
5. Related Works
- 언어 모델링을 위한 자기개선 정렬 알고리즘
- 최근 언어 모델링을 위한 다양한 자기개선 정렬 알고리즘이 연구되었습니다.
- ReST는 계산 효율성이 뛰어나며 탐색 데이터와 보상을 활용할 수 있는 유일한 접근 방식으로 평가됩니다.
- 자기 훈련(Self-training)
- 레이블이 없는 데이터를 사용하여 모델을 개선하는 반감독 학습 방법입니다.
- 이미지 분류, 단백질 접힘, 언어 작업 등 여러 분야에 성공적으로 적용되었습니다.
- ReST의 Improve 단계는 자기 훈련과 유사하지만, Grow 단계에서 RL을 위한 합성 탐색 데이터를 생성한다는 점에서 차이가 있습니다.
- 전문가 순환(Expert Iteration, EI)
- EI는 정책 순환 접근법의 일종으로, 계획 메커니즘을 활용하는 RL 프레임워크입니다.
- ReST와 유사하게 데이터를 생성하고 이를 활용하여 RL로 정책을 학습하지만, ReST는 계획 메커니즘을 필요로 하지 않습니다.
- 언어 모델을 이용한 추론
- 최근 관련 접근 방식들이 제안되었으며, 이들은 ReST와 유사한 개념을 사용하지만, ReST는 다양한 오프라인 RL 손실, 계획 및 필터링 메커니즘을 사용할 수 있으며, 연속값 보상 점수를 다룰 수 있습니다.
- 반복 학습(Iterated Learning, IL)
- IL은 다중 에이전트 설정에서 작동하며 RL을 사용하지 않는 점에서 ReST와 다릅니다.
- 자기 모방 학습(Self Imitation Learning, SIL)
- SIL은 에이전트가 보여준 좋은 행동을 재현하려는 정책을 학습합니다.
- ReST는 SIL과 유사하지만, 기본적인 RL 알고리즘에 구애받지 않으며, 실패한 궤적을 필터링하는 데 값 함수를 필요로 하지 않습니다.
- 보상 순위 조정(Reward ranked Fine-Tuning, RAFT)
- RAFT는 ReST의 특정 사례로 볼 수 있으며, 각 Grow 단계마다 단 한 번의 Improve 단계를 사용하고, 고정된 분위수의 필터링 임계값을 사용합니다.
- ReST 실험에서는 한 번의 Grow 단계에 대해 증가하는 필터링 임계값을 사용하는 여러 Improve 단계가 성능을 더 향상시킨다는 것을 보여주었습니다.
6. Discussion
- ReST 알고리즘 제안
- ReST는 간단하고, 조정해야 할 하이퍼파라미터가 최소한이며, 다양한 Grow 및 Improve 단계 설계와 호환되는 알고리즘입니다.
- 기계 번역 분야에서 ReST의 성능을 연구했으며, 이 분야는 견고하고 확립된 보상 모델이 존재합니다.
- 다양한 오프라인 RL 손실 실험
- ReST 루프에서 다양한 오프라인 RL 손실을 실험했으나, BC 손실이 보상 모델 점수 개선에 가장 효과적이었습니다.
- Improve 단계에서 점진적으로 증가하는 필터링 임계값을 사용한 NLL 훈련의 여러 단계는 모델의 보상 점수를 지속적으로 향상시켰습니다.
- 보상 모델 점수와 인간 선호도
- 보상 모델 점수 향상이 반드시 인간 선호도를 반영하지 않는다는 점에 주목했습니다.
- 인간 평가 점수를 고려했을 때, 한 번의 Grow 단계가 최선의 선택으로 나타났지만, 더 많은 Grow 단계로 보상은 계속 증가했습니다.
- 이러한 한계를 극복하기 위해, 인간 선호도로 주석된 D𝑔의 부분 집합에서 보상 모델을 미세 조정할 수 있습니다.
- 반복적인 Grow 단계와 과적합 위험
- Grow 단계를 반복할수록 보상 모델에 과적합할 위험이 증가합니다.
- 특히, 모델 훈련에 여러 Grow 단계가 필요한 경우 이 문제를 해결하는 것이 중요합니다.
- BC 손실의 성능과 과적합 문제
- 간단한 BC 손실은 보상 모델 점수와의 일치성 측면에서 많은 오프라인 RL 손실을 능가했습니다.
- 그러나 BC는 보상 모델에 과적합될 수 있으며, 이는 RL에서 값 함수 학습의 어려움과 관련이 있습니다.
- ReST의 일반성 및 효율성
- ReST는 일반적이고 효율적인 접근 방식입니다.
- 인간 선호도의 견고한 보상 모델이 사용 가능하고 대규모에서 모델로부터 샘플을 생성할 수 있는 경우에 적용 가능합니다.
- 요약, 차례대로 대화, 기타 생성 오디오 및 비디오 모델 등 언어 도메인 내 많은 작업에 적용될 수 있습니다.
- 미래의 탐색 및 응용 분야가 여러 개 있는 ReST는 RLHF를 위한 유용한 성장 배치 RL 방법론으로 여겨집니다.