관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
Abstract
- 대규모 언어 모델(Large Language Models, LLMs)은 다양한 추론 작업에서 뛰어난 성능을 보이지만, 많은 매개변수와 접근성 문제로 실제 적용에 어려움이 있음.
- LLM에서 생성된 사고 과정 체인을 활용하여 작은 모델로 추론 능력을 정제하는 방법이 유망함.
- 복잡한 수학 문제 등에서 LLM이 잘못된 추론 체인을 생성할 수 있음.
- 기존 연구는 정확한 답변을 포함한 긍정적 데이터만을 이용하고, 잘못된 답변을 포함한 데이터는 제외함.
- 본 연구에서는 부정적 데이터의 중요성을 제시하고, 긍정적 및 부정적 샘플 모두를 활용하여 LLM을 정제하는 모델 특화 프레임워크를 제안함.
- 훈련부터 추론 단계까지 세 단계에 걸친 프레임워크로 부정적 데이터에서 지식을 흡수함.
- 산술 추론 작업을 통한 실험을 통해 LLM에서의 정제 과정에서 부정적 데이터의 역할을 입증함.

1. Introduction
- LLMs는 복잡한 수학 문제에서 강력한 추론 능력을 보이지만, 100B 이상의 매개변수를 필요로 하는 CoT (chain-of-thought)은 소규모 모델에 적용하기 어려움.
- 이러한 모델들의 높은 계산 요구사항과 추론 비용은 제한된 자원을 가진 실제 환경에서의 발전을 저해함.
- 본 연구의 목적은 소규모 모델에서 복잡한 산술 추론을 가능하게 하는 것임.
- MATH 데이터셋에 대한 실험 결과, 긍정적 및 부정적 데이터를 별도로 훈련시킨 모델들 간에 정답에 대한 교집합이 매우 작음을 보여줌.
- 부정적 모델은 정확도가 낮지만 긍정적 모델이 해결하지 못하는 문제를 해결할 수 있음, 이는 부정적 데이터에 포함된 지식의 가치를 증명함.
- 토큰 기반 가격 정책을 고려할 때, 부정적 데이터를 폐기하는 대신 가치 있는 지식을 추출하여 모델 특화를 강화하는 것이 유리함.
- 모델 특화의 전통적인 과정은 CoT 정제, 자체 강화, 자체 일관성의 세 단계로 요약됨.
- 본 연구에서는 부정적 데이터를 활용하여 LLM에서 복잡한 추론 능력을 정제하는 새로운 모델 특화 프레임워크를 제안함.
- 부정적 보조 훈련(Negative Assistant Training, NAT) 접근법 개발: 긍정적 및 부정적 측면 모두에서 지식을 포착하기 위해 이중 LoRA 구조를 설계함.
- 부정적 교정 강화(Negative Calibrated Enhancement, NCE) 개발: 부정적 출력을 기준으로 긍정적 근거의 정제를 강화함.
- 적응적 자체 일관성(Adaptive Self-Consistency, ASC) 도입: 추론 단계에서 부정적 정보를 활용함.
- LLaMA-7b를 학생 모델로 사용한 산술 추론 작업에 대한 광범위한 실험을 수행함.
- 이전 모델 특화 작업은 일반 데이터셋에서만 검증되었으나, 본 연구는 MATH 데이터셋과 같은 도전적인 문제에 초점을 맞춤.
- 실험 결과:
- NAT은 부정적 데이터에서 지식을 흡수하는 더 포괄적인 방법을 제공함.
- NCE는 자체 정제 과정에서 중요한 지식에 더 집중할 수 있도록 함.
- 긍정적 및 부정적 근거 모두에서 훈련된 순위 모델이 답변 집계에 적절한 가중치를 할당함.
- 본 연구의 주요 기여:
- 부정적 샘플도 LLM에서 복잡한 산술 추론 지식을 정제하는 데 유용한 자원임을 보여줌.
- 부정적 데이터를 충분히 활용하기 위해 훈련부터 추론 단계까지 세 단계로 구성된 모델 특화 프레임워크를 제안함.
- 도전적인 산술 추론 데이터셋에 대한 광범위한 평가를 통해 제안된 프레임워크가 부정적 정보를 효과적으로 활용하고 기준 모델을 크게 능가함을 입증함.
2. Realted Work
Chain-of-Thought Reasoning
- CoT 접근 방식은 복잡한 추론 문제를 해결하는데 효과적임.
- Few-shot 및 Zero-shot CoT은 LLM의 잠재적 추론 능력을 자극함.
- Least-to-most prompting은 문제를 명시적으로 분할하고 단계적으로 해결하는 것을 제안함.
- Self-Consistency는 다양한 근거들 간의 투표를 통해 정확도를 향상시킴.
- PHP는 반복적인 답변 생성과 과거 생성된 답변을 컨텍스트에 추가하여 최종 답변에 수렴함.
- 본 연구는 LLM에서 생성된 잘못된 답변도 가치 있는 정보를 제공한다고 믿음.
Large Model로부터의 지식 정제
- 지식 정제는 큰 모델로부터 작은 모델로 지식을 전달하는데 효과적임.
- 작은 모델의 매개변수를 최적화하여 큰 모델의 출력에 가깝게 함.
- 현재의 LLM은 이러한 방법 적용에 제한이 있음.
- 이전 연구들은 주로 LLM에서 생성된 정답이 포함된 응답을 이용함.
- 하지만, 잘못된 답변을 포함한 데이터도 중요한 지식을 포함하고 있음.
부정적 관점에서의 학습
- 부정적 데이터는 원치 않는 행동을 반영하는 샘플임.
- 부정적 업데이트, 부적합 손실 용어 도입, 부정적 교사와 학생 간 예측 거리 최대화 등의 방법이 연구됨.
- 이러한 방법들은 부정적 학습 신호만을 고려함.
- 본 연구에서는 부정적 데이터의 지식을 긍정적 및 부정적 관점에서 모두 활용하는 방법을 탐구함.
3. Methodology
Background
Chain-of-Thought Distillation
- LLM으로 생성된 사고 과정을 이용하여 소규모 모델의 추론 능력을 극대화하는 방법 제시.
- 긍정적 샘플(Spos)을 이용하여 학생 모델의 가능성을 최대화.
Self-Enhancement
- 자기 반성을 기반으로 언어 모델을 강화하는 다양한 방법 제안.
- 자체 증강 및 자체 정제를 포함한 두 가지 일반적인 방법 사용.
Self-Consistency
- 복잡한 추론에서 다양한 접근 방식을 통해 동일한 정확한 답변에 도달함.
- 후보들 사이의 투표를 통해 가장 일관된 답변을 최종 예측으로 선택.
Negative Assistant Training (NAT)
Absorbing Negative Knowledge
- LLM에서 생성된 (x, r, ˆyˆ) 삼중항을 획득하여 Dpos와 Dneg로 분류.
- 부정적 모델을 Dneg에서 훈련시킨 후, 유용한 지식 추출.
Dynamic Integration Unit
- 긍정적 및 부정적 LoRA 모듈을 사용하여 동적으로 지식 통합.
- 수정된 주의 메커니즘을 사용하여 긍정적 및 부정적 방향에서 지식을 적응적으로 통합.
Negative Calibrated Enhancement (NCE)
- 부정적 지식을 이용하여 자체 강화 과정을 도움.
- MNAT를 사용하여 각 문제에 대한 (r, ˆyˆ) 쌍을 생성하고 Dpos에 추가.
- MNAT와 Mneg 사이의 일관성 없는 근거 생성 분포를 측정하여 학습 중 핵심 근거 강화.
Adaptive Self-Consistency (ASC)
- Dneg와 Dpos를 이용하여 후보들을 적응적으로 재가중하는 순위 모델(Mrank) 훈련.
- Mrank를 기반으로 후보들의 가중치를 적응적으로 조정하여 최종 예측 선택.
실험 설정
- 본 연구는 MATH 데이터셋에 초점을 맞추며, 일반화 능력 평가를 위해 추가 데이터셋 사용.
- 선생님 모델로는 gpt-3.5-turbo 및 gpt-4 API 사용, 학생 모델로는 LLaMA-7b 선택.
- LLM과 LLaMA-7b를 기반으로 한 두 가지 유형의 기준 모델 비교.
- 부정적 관점에서 학습에 대한 네 가지 기준 방법론(MIX, CL, NT, UL) 추가 비교.
4. Main Results
Negative Assistant Training (NAT)
- NAT는 모든 기준선을 넘어서 작업 정확도를 향상시킴.
- CoT KD와 비교했을 때, NAT는 부정적 샘플의 가치를 입증하며 정확도를 크게 향상시킴.
- 부정적 정보를 활용하는 기존 방법들은 대부분 NAT보다 성능이 낮음.

Negative Calibrated Enhancement (NCE)
- NCE는 지식 정제(KD)와 비교하여 평균 10%의 진보를 달성함.
- NAT에 비해 일부 매개변수를 줄였음에도 불구하고 6.5%의 진보를 이룸.

Adaptive Self-Consistency (ASC)
- 기본 SC와 가중합(WS) 버전과 비교하여 ASC의 성능 평가.
- ASC는 다른 샘플들로부터 답변을 집계하는 더 유망한 전략임.
- SC의 WS 버전은 기본 SC를 능가하지 못함.

분석
- NAT와 NCE가 GSM8K에서 더 높은 성능을 보여주며 일반화 능력을 입증함.
- 각 NAT 구성요소의 필요성을 입증하기 위한 탈각 연구 수행.
- 부정적 샘플을 필터링하면 모델 정확도가 감소함을 확인.
- 주의 메커니즘이 LoRA 모듈 통합에 중요한 역할을 함.
Accuracy of Ranking Model
- Mrank의 정확도와 ASC의 성능 사이에 긍정적 상관관계가 있음.
- Mrank의 현재 정확도가 약 60%임에도 불구하고 SC의 효과를 크게 향상시킴.
Case Study about Adaptive Self-Consistency
- ASC의 우월성을 보여주는 직관적인 예시 제공.
- SC에서 더 많은 표를 얻은 오답 후보가 있지만, Mrank가 가중치를 조정하여 정답 후보가 더 높은 표를 얻게 함.
5. Conclusion
- 본 연구는 대규모 언어 모델에서 작은 전문화된 모델로 복잡한 추론 능력을 정제하는 과정에서 부정적 데이터의 효과를 탐구함.
- 세 단계로 구성된 새로운 프레임워크를 제안하며, 모델 특화 과정 전반에 걸쳐 부정적 정보를 완전히 활용함.
- 부정적 보조 훈련(Negative Assistant Training)은 부정적 정보를 두 가지 측면에서 보다 포괄적으로 활용할 수 있는 방법을 제공함.
- 부정적 교정 강화(Negative Calibrated Enhancement)는 정제 과정을 보정하여 중요한 지식에 더 집중할 수 있도록 함.
- 긍정적 및 부정적 관점에서 훈련된 순위 모델은 적응적 자체 일관성을 달성하기 위해 답변 집계에 적절한 가중치를 할당할 수 있음.
- 광범위한 실험을 통해 제안된 프레임워크가 부정적 샘플을 생성함으로써 추론 능력 정제의 효과성을 향상시킬 수 있음을 입증함.
출처 : https://arxiv.org/abs/2312.12832
Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data
Large Language Models (LLMs) have performed well on various reasoning tasks, but their inaccessibility and numerous parameters hinder wide application in practice. One promising way is distilling the reasoning ability from LLMs to small models by the gener
arxiv.org