관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
Abstract
[NLP Group, Fudan University]
- 목적: 대규모 언어 모델(Large Language Models, LLMs)의 인간 지시 사항과의 정렬 및 다운스트림 작업에서의 성능 향상을 위한 중요한 단계로서, 감독된 미세 조정(Supervised Fine-Tuning, SFT)의 중요성을 강조.
- 문제점: 더 넓은 범위의 다운스트림 작업에 모델을 정렬하거나 특정 작업의 성능을 크게 향상시키려는 경우, 미세 조정 데이터의 대규모 증가가 필요해지는데, 이는 LLM에서 저장된 세계 지식을 잊어버리는 문제(world knowledge forgetting)를 야기할 수 있음.
- LoRAMoE 소개: 이러한 도전을 해결하기 위해 LoRAMoE라는 혼합 전문가(Mixture of Experts, MoE)의 플러그인 버전을 소개.
- 핵심 기능:
- 모델 훈련 단계에서 기본 모델을 고정(freezing)함으로써 세계 지식(work knowledge)의 무결성 보장.
- 전문가들의 일부를 작업 활용을 위한 localized balancing constraints로 조정하면서, 다른 전문가들이 모델에 저장된 세계 지식을 충분히 활용할 수 있게 함.
- 실험 결과: LoRAMoE가 추론 중 데이터 유형에 따라 전문가들을 합리적으로 조정할 수 있으며, 지시 데이터를 대폭 증가시켜도 지식 잊어버림이 발생하지 않음.
- 추가 이점: 다운스트림 작업 성능에 대한 추가적인 이점을 제공, 이는 다중 작업 학습에 있어서의 접근 방법의 잠재력을 나타냄.
1. Introduction
- 대규모 언어 모델의 능력: 대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 뛰어난 능력을 보여줌 (Touvron et al., 2023; Muennighoff et al., 2022).
- 감독된 미세 조정(Supervised Fine-Tuning, SFT): LLM의 잠재력을 최대화하기 위해 모델을 인간 지시 사항과 정렬하는 것이 필수적임 (Chung et al., 2022; Ouyang et al., 2022).
- 세계 지식 잊어버림 문제: 대규모 미세 조정 데이터의 증가는 세계 지식(모델에 저장된 매개변수 지식)의 손실, 즉 지식 잊어버림을 초래할 수 있음 (Touvron et al., 2023; Neeman et al., 2022).
- 기존 방법의 한계: 기존 감독된 미세 조정 방법은 다운스트림 작업의 성능 향상과 LLM의 세계 지식 유지 사이에 모순이 있음.
- 새로운 해결책 제안: 이 연구에서는 모델의 특정 부분을 세계 지식을 저장하는 데 전용으로 할당하는 새로운 플러그인 기반 미세 조정 방법을 제안함. LoRAMoE는 MoE(Mixture of Experts) 구조를 기반으로 하며, 피드포워드 레이어마다 여러 병렬 플러그인을 전문가로 추가하고 라우터로 연결함.
- 주요 기능: LoRAMoE는 각 레이어에서 전문가 그룹을 두 가지 유형으로 나누며, 한 그룹은 다운스트림 작업에, 다른 그룹은 세계 지식을 인간 지시 사항과 정렬하는 데 초점을 맞춤. 이를 통해 지식 잊어버림을 줄임.
- 실험 결과: LoRAMoE는 대규모 미세 조정 과정에서 세계 지식을 유지하면서 다른 작업의 성능도 개선하는 데 효과적임이 입증됨. 전문가 활용도 시각화를 통해 이 방법의 효과를 추가로 입증함.
- 기여점:
- 대규모 SFT 데이터 증가가 LLM 내부의 세계 지식을 손상시킬 수 있다는 점 발견.
- LoRAMoE 도입: LLMs에 적용 가능한 새로운 훈련 가능한 플러그인으로, SFT 단계에서 다양한 데이터 유형을 각각의 전문가에게 자동으로 라우팅함.
- 다양한 실험을 통해 LoRAMoE의 효과 입증: 대규모 미세 조정 데이터를 확장하면서도 모델 내 안정된 지식을 유지하고, 다른 작업에서도 성능 향상을 보임.
2. Conflict between Expanding Fine-Tuning Data and Retention of World Knowledge in LLMs
2.1 구현
- 데이터셋: 다양한 작업을 포함하는 대규모 데이터셋 구성. 이에는 CBQA, 공동 참조 해결, NLI, 요약, 다국어 번역, 독해, 텍스트 분류 등 7가지 작업 포함. 데이터 확대를 위해 데이터 증강 방법을 사용하여 훈련 데이터셋을 500만 개로 확장.
- 기본 모델: LLaMA-2-7B (Touvron et al., 2023) 사용, 현재 학계에서 널리 사용되는 주목할 만한 오픈소스 LLM.
- 평가: 세계 지식 평가를 위해 CBQA를 주요 벤치마크로 사용. 특히, 훈련-테스트 중복을 피하기 위해 필터링된 NQ와 TriviaQA를 테스트 세트로 선택.
2.2 대규모 미세 조정 데이터 확장 중 성능 변화
- 다양한 작업에서의 성능: 요약, NLI, 기계 번역 등 일부 작업에서는 성능이 초기에 크게 향상되고 안정적인 수준에서 안정화됨.
- 세계 지식 벤치마크에서의 성능 하락: CBQA와 같은 지식 능력을 측정하는 벤치마크에서는 모델의 성능이 기준선보다 훨씬 낮아지는 상당한 하락을 보임. 특히, 필터링된 테스트 세트에서는 붕괴가 더 일찍 발생함.
대규모 미세 조정 데이터 확장에 따른 세계 지식 벤치마크 성능 하락 원인 분석
- 세계 지식 벤치마크의 성능: 세계 지식 벤치마크에서의 성능은 모델이 사전 훈련 단계에서 획득한 지식과 기술에 크게 의존함.
- CBQA 데이터셋에서의 미세 조정 실험: 사전 훈련 모델에 저장된 지식과의 관계를 조사하기 위해 CBQA 데이터셋에서만 250k 샘플로 미세 조정을 실시하고 훈련-테스트 중복이 없는 테스트 세트에서 평가를 실행함. 결과는 초기 훈련 과정의 약 1%가 대부분의 성능 향상에 기여하며, 추가적인 훈련 샘플은 실제로 큰 향상을 가져오지 않음을 보여줌.
대규모 지시 데이터의 SFT 과정이 LLM의 저장된 지식을 방해하여 지식 잊어버림을 초래함
- 가설 검증: 모델을 순차적으로 CBQA 세그먼트를 제외한 지시 데이터로 미세 조정한 후, 이전에 분리해둔 CBQA 데이터셋으로 추가 미세 조정을 실시함.
- 실험 결과: 미세 조정 모델의 지식 능력이 현저히 저하되고 원래 LLM보다 성능이 떨어짐. 이는 첫 번째 단계의 미세 조정 동안 모델 내의 세계 지식이 손상되어 후속 미세 조정 단계에서 인간 지시 사항과 이미 손상된 지식 사이의 연결을 형성하는 데 실패했음을 나타냄.
- 표 1 결과: LlaMA-2-7B 모델, CBQA 데이터셋만으로 미세 조정된 모델, 그리고 300만 지시 데이터셋(단, CBQA 제외) 후 CBQA 데이터셋으로 추가 훈련된 모델의 성능을 비교함. CBQA 데이터셋으로 추가 미세 조정 후에도 대규모 SFT를 거친 모델은 지식 대답 능력을 향상시키지 못하고 기준선 이하로 떨어짐.
- 세계 지식의 파괴: 대규모 미세 조정 데이터의 확장 과정에서 LLM 매개변수에 큰 변화가 관찰됨(그림 1의 오른쪽 부분 참조). 이는 사전 훈련 과정에서 모델이 매개변수 내에 지식을 저장한다는 이전 연구들(Petroni et al., 2019; Roberts et al., 2020; AlKhamissi et al., 2022)과 관련하여, 대규모 미세 조정 중에 매개변수 내 저장된 지식이 파괴되어 지식 잊어버림이 발생함을 시사함.
결론
- 기존 SFT 문제: 대규모의 전통적인 SFT는 다운스트림 작업의 성능 향상과 모델 내 저장된 세계 지식을 유지하는 것 사이에 본질적인 모순이 있음.
- LoRAMoE의 중요성: 이러한 문제를 해결하기 위해 제안된 LoRAMoE는 다양한 전문가를 활용하여 LLM의 세계 지식을 유지하면서도 다운스트림 작업의 성능을 향상시킬 수 있는 방법론을 제시함.
3. Methodology
3.1 기초
3.1.1 전문가 혼합(MoE)
- MoE: 모델 매개변수를 대규모로 확장하면서 계산 노력을 상응하게 증가시키지 않는 방법.
- 구현: 트랜스포머 기반 LLM에서 일반적인 전방 피드-포워드 신경망 레이어를 MoE 레이어로 대체.
- 구조: 독립적인 전방 피드-포워드 신경망들로 구성된 N개의 전문가와 라우터로 구성된 게이팅 함수를 포함.
- 작동 원리: 라우터는 이러한 전문가 네트워크의 출력에 대한 가중치를 결정하는 확률 분포를 모델링함.
3.1.2 로우-랭크 적응(LoRA)
- LoRA: 사전 훈련된 모델을 특정 작업에 적응시키는 효과적이고 효율적인 방법.
- 작동 원리: 사전 훈련된 매트릭스를 저랭크 분해를 통해 업데이트함.
3.2 LoRAMoE
3.2.1 아키텍처
- 목표: 지시 데이터 확장과 LLM 내 세계 지식 유지 간의 충돌 해결.
- 구현: 기존 모델의 매개변수를 고정하고, 트랜스포머 블록의 피드-포워드 신경망 레이어를 LoRAMoE 레이어로 대체함.
- 특징: 복수의 훈련 가능한 전문가들이 라우터에 의해 연결되고, 전문가들의 완전 연결 레이어를 저랭크 형태로 대체하여 훈련 및 추론 효율성을 향상시킴.
3.2.2 전문가 균형 문제
- 문제: MoE를 제약 없이 미세 조정할 때, 라우터가 일부 전문가에게 지나치게 많은 선호도를 부여하는 불균형 문제 발생.
- 해결책: 훈련 샘플 간 균형을 맞추기 위해 전문가들의 중요도에 변동 계수를 사용하는 손실 함수 사용.
- LoRAMoE 전략: 데이터를 동일하게 분배하는 대신 관찰된 불균형에 따라 전문가에게 할당함.
3.2.3 로컬라이즈드 균형 제약
- 전략: 두 그룹으로 전문가를 분리하여 한 그룹은 대규모 작업을 학습하고, 다른 그룹은 세계 지식을 지시 사항과 정렬함.
- 균형 제약 손실: 중요도 행렬의 분산과 평균을 사용하여 손실을 계산함.
결론
- LoRAMoE의 효과: 전문가들의 효율적인 협력을 통해 다양한 유형의 작업을 효과적으로 처리하면서 LLM 내의 세계 지식을 유지함.
- 효율성: LoRAMoE는 모델 전체 매개변수를 미세 조정하는 것보다 자원을 크게 절약함.
4. Experimetns
4.1 실험 설정
- LoRAMoE 훈련 구현: LLM의 피드-포워드 신경망의 선형 레이어를 LoRAMoE 레이어로 대체. 각 LoRAMoE 레이어는 6개의 전문가로 초기화, 이 중 3개는 다운스트림 작업, 나머지 3개는 세계 지식 정렬에 집중.
- 하이퍼파라미터: 제어 제약 강도(β)와 불균형 정도(δ)는 모두 0.1로 설정. 저랭크 어댑터 기반 전문가의 경우 α는 32, r은 4로 설정.
- 훈련 데이터셋: 300만 개의 세트 사용. 기본 모델의 매개변수는 고정되며, LoRAMoE의 전문가와 라우터만 훈련 가능.
- 실험 환경: 전역 배치 크기는 64, 32개의 A100 80G 카드에서 실험 수행.
4.2 결과
- 성능 비교: LoRAMoE는 300만 훈련 샘플을 사용하여 직접 SFT나 LoRA 튜닝을 적용한 모델과 비교해 우수한 성능을 보임.
- 세계 지식 벤치마크: LoRAMoE는 CBQA 데이터셋만으로 미세 조정된 모델보다 더 우수한 성능을 보임. 평균적으로 세계 지식 벤치마크에서 35%의 성능 향상을 보임.
- 다운스트림 작업: 다운스트림 작업에서는 직접 SFT에 필적하거나 그보다 높은 성능을 달성. 특히, 독해 작업에서 뛰어난 성능을 보임.
- 다중 작업 학습: LoRAMoE는 다중 작업 학습에서 상당한 가능성을 보임.
4.3 전문가 활용도 시각화
- 전문가 그룹 분화: 세계 지식 벤치마크와 다른 다운스트림 작업에서 두 전문가 그룹의 활용도에 뚜렷한 대조를 보임.
- 효과적 할당: 라우터는 추론 단계에서 특정 작업을 해당 능력을 가진 전문가에게 자동으로 할당함.
- 세계 지식 벤치마크: 예를 들어 TriviaQA, Natural Question, HotpotQA에서는 세계 지식에 초점을 맞춘 전문가 그룹이 크게 활용됨.
- 다운스트림 작업: 성능 향상에 초점을 맞춘 전문가 그룹이 다운스트림 작업에서 더 중요하게 다루어짐.
결론
LoRAMoE는 세계 지식을 유지하면서 다양한 다운스트림 작업에서 우수한 성능을 발휘하며, 특히 다중 작업 학습에서 유망함을 보임.
5. Related Work
매개변수 효율적 미세 조정 (Parameter-Efficient Fine-tuning, PEFT)
- 배경: 언어 모델의 매개변수 수 증가에 따라 PEFT 연구 중요성 증대.
- 방법: 리소스 소비를 줄이면서 대규모 언어 모델을 효율적으로 미세 조정하는 방법. 예로는 prompt LoRA (Hu et al., 2021), 어댑터 (Houlsby et al., 2019), prompt 학습 (Lester et al., 2021) 등이 있음.
- LoRA 기반 PEFT: 각 완전 연결 레이어에 대해 두 개의 훈련 가능한 저랭크 매트릭스를 도입하여 추가적인 추론 계산 비용 없이 훈련 리소스를 절감.
전문가 혼합 (Mixture-of-Experts, MoE)
- 개념: 전방 피드-포워드 신경망 레이어를 희소 활성화 전문가로 수정하여 모델을 확장하지만 계산 비용은 현저히 증가시키지 않음.
- 연구 동향: 초기의 샘플 수준 MoE부터 현재 주류인 토큰 수준 MoE에 이르기까지 다양한 MoE 연구가 진행됨.
- 차별성: 대부분의 연구는 모델 매개변수를 대폭 증가시키고 계산 비용을 줄이는 데 초점을 맞추지만, 본 연구는 LLM에서 매개변수 지식 유지 문제를 해결하기 위해 MoE와 같은 구조를 사용.
다중 LoRA 아키텍처
- 방법: 모델 성능 향상 또는 특정 측면에서의 이점을 위해 다중 LoRA 사용.
- 예시: LoraHub(Huang et al., 2023)은 여러 LoRA를 훈련하고 추론 단계에서 데이터 유형에 따라 다른 LoRA 조합을 선택. MOELoRA(Liu et al., 2023)는 MoE 구조를 통합하여 의료 분야에서 다중 작업 능력을 향상시킴.
- 차별성: 이러한 방법들은 추론 시 데이터 유형의 사전 지식을 필요로 함. 반면, LoRAMoE는 미세 조정 단계에서 사전 훈련된 언어 모델의 지식에 심각한 손상을 주는 지시 데이터 확장 문제를 처음으로 탐구하고 MoE 구조를 사용하여 이러한 충돌을 해결하며 리소스 소비를 줄임.
결론
- LoRAMoE의 혁신성: LoRAMoE는 추론 시 데이터 유형에 대한 사전 지식 없이도 말단에서 말단까지(end-to-end) 접근 방식을 제공함.
6. Insights
Mistral에 MoE를 적용한 Mixtral의 성능이 엄청나게 뛰어나다는 사실이 알려진 지가 정말 얼마되지 않았는데 순식간에 LoRA까지 결합한 내용을 다루고 있습니다.
본 논문이 공개된 시점과 논문 내 언급된 관련 연구들을 보면 Mixtral과 무관하게 연구된 것으로 보이긴 하는데..
세상에 정말 다양한 연구가 알지도 못하는 새에 빠르게 이뤄지고 있다는 생각이 절로 드는 연구 결과였습니다.
개인적으로는 localized balancing constraint에 대해 정확히 이해하지 못하고 넘어가게 된 것이 아쉬웠습니다.
가중치를 산정하기 위한 행렬곱에 대해 설명하고 있는데 잘 와닿지 않았습니다.
이를 적용했을 때 LoRA + MoE가 빛을 발하는 결과가 나타났음이 논문에 명시되어 있었는데 좀 더 열심히 공부해야겠다는 생각이 들었습니다.
별개로 여기에 Quantization을 접목한다면 어떻게 될 지도 궁금하네요.
기존에는 LoRA와 Quantization을 동시에 잘 다루는 연구가 꽤 이뤄진 것으로 알고 있는데 한 술 더 얹었을 때도 안정적인 결과를 얻을 수 있을지 궁금합니다.
출처 : https://arxiv.org/abs/2312.09979