<KD, Hallucination> [Idk Dataset] Can AI Assistants Know What They Don't Know? (2024.01)
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Fudan University, Shanghai Artificial Intelligence Laboratory]
- AI assistant가 자신이 답변하지 못할 질문에 대해서는 '모른다'고 답변하는 것이 hallucination을 줄이는 데 중요함
- model-specific한 "I don't know" (Idk) 데이터셋을 구축하고 이를 활용한 것이 유의미한 결과로 이어짐을 입증
1. Introduction
LLM은 다양한 태스크를 잘 처리할 수 있다는 강점을 바탕으로 helpfulness를 제대로 발휘하고 있습니다.
그러나 hallucination과 같은 문제들로 인해 안전성에 대한 의문이 제기되고 있습니다.
독특하기도 한 것이 분명히 LM이 답할 수 없는 질문을 던졌음에도 불구하고 어떻게든 그럴싸한 답변을 자꾸만 생성합니다.
'세종 대왕의 맥북 프로 던짐 사건'과 같은 프롬프트에 대한 답변 결과가 큰 이슈였었죠.
그래서 LM이 가진 정보나 내재된 능력으로는 처리할 수 없는 질문들에 대해 확실히 '답변을 거부' 하게끔 만드는 것이 본 연구의 핵심입니다.
이를 위해서 Idk 데이터셋을 직접 구축하고, 어느 정도로 엄격하게 답변을 거부할지를 정해주는 threshold를 조절하면서 실험을 진행한 결과가 논문에 제시되어 있습니다.
2. Related Work
Aligning LLMs with Human Values
helpful, truthful, and harmless한 AI assistant를 만들기 위한 노력과 관련된 연구 분야들입니다.
관련 키워드는 다음과 같습니다.
- Supervised Fine-Tuning (SFT)
- Self-Instruct
- Reinforcement Learning from Human Feedback (RLHF)
- Proximal Policy Optimization (PPO)
- Hindsight Instruction Relabeling (HIR)
- Direct Preference Optimization (DPO)
Discovering LLM's Knowledge
- self-aware dataset
- method to find latent knwoledge inside the activations of a language model
- unsupervised way to judge whetehr the model knows the question
Mitigating LLM's Factual Errors
- SELF-RAG
- contrasting the differences in tokens' logits
- 아직까지 factual error를 제거하는 온전한 방법, 안정적인 방법이 등장하지는 않았습니다.
3. Methodology
Construction of the Idk Dataset
각 질문에 대해 모델로부터 여러 개의 response를 생성합니다.
그리고 각 모델에 대한 confidence를 측정하고, 모델이 답변할지 답변을 거부할지를 결정하는 IK threshold를 이것으로 결정합니다.
Ik threshold에 대한 의미를 생각해보면 이를 높게 설정할수록 모델이 보수적으로 응답하고, 이를 낮게 설정할수록 aggresive한 응답 전략을 취하는 것으로 이해할 수 있습니다.
답변을 거절하는 예시 프롬프트는 다음과 같습니다.
This question is beyond the scope of my knowledge, and I am not sure what the answer is.
모델의 응답이 올바른지 그렇지 않은지를 판단할 때는 lexical matching을 사용합니다.
데이터셋과 모델의 응답을 위와 같이 네 개로 구분됩니다.
- IK-IK: 답변하는 것을 거부하지 않았는데 실제로 정답인 경우입니다.
- IK-IDK: 답변을 거부하고 실제로 모델이 답변할 수 없었던 내용인 경우입니다.
- IDK-IK: 답변을 거부했는데 실제로는 모델이 답변할 수 있었던 내용인 경우입니다.
- IDK-IDK: 답변하는 것을 거부하지 않았는데 실제로는 모델이 답변할 수 없었던 내용이어서 틀린 경우입니다.
Idk-Prompting
Answer the following question, and if you don't know the answer, only reply with "I don't know": <Question>
Idk Supervised Fine-tuning
모델에 대해 직접적으로 fine-tuning을 수행합니다.
Preference-aware Optimization
- Direct Preference Optimization (DPO): SFT 모델은 Idk 데이터셋에 대해 절반만 학습하고, 나머지는 preference를 반영하는 데 사용합니다.
- Best-of-n Sampling (BoN): 후보 responses에 대해 score를 반환하도록 reward model을 학습시킵니다. Best-of-10 strategy를 활용했다고 합니다.
- Proximal Policy Optimization (PPO)
- Hindsight Instruction Relabeling (HIR)
Your current knowledge expression confidence level is <X>, please answer the user's question: <Question>
4. Experiments
- Dataset
- TriviaQA
- Natural Question (NQ) & ALCUNA를 out-of-distribution (OOD) questions로 사용
- Metric
- IK-IK Rate: 전체 질문 중에서 정확하게 답변한 비율을 뜻합니다.
- IK-IDK Rate: 전체 질문 중에서 전체 질문 중에서 올바르게 답변을 거절한 비율을 뜻합니다.
- Trutuful Rate: IK-IK Rate와 IK-IDK Rate를 더한 비율입니다.
- Model
- Llama-2-7b-chat 모델을 사용
- Results
5. Insights
언어 모델의 hallucination은 생각보다도 심각한 문제로 대두되고 있고 아직까지도 완벽은 커녕 꽤나 괜찮다는 해결책도 제시되지 않은 상황입니다.
RAG와 같은 방법론들이 활발히 연구되고 활용되는 이유도 이것 때문이구요.
본 연구에서는 model 전용 데이터셋을 구축해 유의미한 결과를 만들어 낸 것으로 보이는데 이를 범용적인 테크닉으로 발전시킬 수 있으면 좋겠다는 생각이 들었습니다.
모든 모델에 대해서 데이터셋을 구축할 수는 없으니까요..?