<KD, Hallucination> [Idk Dataset] Can AI Assistants Know What They Don't Know? (2024.01)

1. Introduction
2. Related Work
Aligning LLMs with Human Values
Discovering LLM's Knowledge
Mitigating LLM's Factual Errors
3. Methodology
Construction of the Idk Dataset
Idk-Prompting
Idk Supervised Fine-tuning
Preference-aware Optimization
4. Experiments
5. Insights

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다.

혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️

[Fudan University, Shanghai Artificial Intelligence Laboratory]
- AI assistant가 자신이 답변하지 못할 질문에 대해서는 '모른다'고 답변하는 것이 hallucination을 줄이는 데 중요함
- model-specific한 "I don't know" (Idk) 데이터셋을 구축하고 이를 활용한 것이 유의미한 결과로 이어짐을 입증

1. Introduction

LLM은 다양한 태스크를 잘 처리할 수 있다는 강점을 바탕으로 helpfulness를 제대로 발휘하고 있습니다.

그러나 hallucination과 같은 문제들로 인해 안전성에 대한 의문이 제기되고 있습니다.

독특하기도 한 것이 분명히 LM이 답할 수 없는 질문을 던졌음에도 불구하고 어떻게든 그럴싸한 답변을 자꾸만 생성합니다.

'세종 대왕의 맥북 프로 던짐 사건'과 같은 프롬프트에 대한 답변 결과가 큰 이슈였었죠.

그래서 LM이 가진 정보나 내재된 능력으로는 처리할 수 없는 질문들에 대해 확실히 '답변을 거부' 하게끔 만드는 것이 본 연구의 핵심입니다.

이를 위해서 Idk 데이터셋을 직접 구축하고, 어느 정도로 엄격하게 답변을 거부할지를 정해주는 threshold를 조절하면서 실험을 진행한 결과가 논문에 제시되어 있습니다.

2. Related Work

Aligning LLMs with Human Values

helpful, truthful, and harmless한 AI assistant를 만들기 위한 노력과 관련된 연구 분야들입니다.

관련 키워드는 다음과 같습니다.

Supervised Fine-Tuning (SFT)
Self-Instruct
Reinforcement Learning from Human Feedback (RLHF)
Proximal Policy Optimization (PPO)
Hindsight Instruction Relabeling (HIR)
Direct Preference Optimization (DPO)

Discovering LLM's Knowledge

self-aware dataset
method to find latent knwoledge inside the activations of a language model
unsupervised way to judge whetehr the model knows the question

Mitigating LLM's Factual Errors

SELF-RAG
contrasting the differences in tokens' logits
아직까지 factual error를 제거하는 온전한 방법, 안정적인 방법이 등장하지는 않았습니다.

3. Methodology

Construction of the Idk Dataset

각 질문에 대해 모델로부터 여러 개의 response를 생성합니다.

그리고 각 모델에 대한 confidence를 측정하고, 모델이 답변할지 답변을 거부할지를 결정하는 IK threshold를 이것으로 결정합니다.

Ik threshold에 대한 의미를 생각해보면 이를 높게 설정할수록 모델이 보수적으로 응답하고, 이를 낮게 설정할수록 aggresive한 응답 전략을 취하는 것으로 이해할 수 있습니다.

답변을 거절하는 예시 프롬프트는 다음과 같습니다.

This question is beyond the scope of my knowledge, and I am not sure what the answer is.

모델의 응답이 올바른지 그렇지 않은지를 판단할 때는 lexical matching을 사용합니다.

데이터셋과 모델의 응답을 위와 같이 네 개로 구분됩니다.

IK-IK: 답변하는 것을 거부하지 않았는데 실제로 정답인 경우입니다.
IK-IDK: 답변을 거부하고 실제로 모델이 답변할 수 없었던 내용인 경우입니다.
IDK-IK: 답변을 거부했는데 실제로는 모델이 답변할 수 있었던 내용인 경우입니다.
IDK-IDK: 답변하는 것을 거부하지 않았는데 실제로는 모델이 답변할 수 없었던 내용이어서 틀린 경우입니다.

Idk-Prompting

Answer the following question, and if you don't know the answer, only reply with "I don't know": <Question>

Preference-aware Optimization

Direct Preference Optimization (DPO): SFT 모델은 Idk 데이터셋에 대해 절반만 학습하고, 나머지는 preference를 반영하는 데 사용합니다.
Best-of-n Sampling (BoN): 후보 responses에 대해 score를 반환하도록 reward model을 학습시킵니다. Best-of-10 strategy를 활용했다고 합니다.
Proximal Policy Optimization (PPO)
Hindsight Instruction Relabeling (HIR)

Your current knowledge expression confidence level is <X>, please answer the user's question: <Question>

4. Experiments

Dataset
- TriviaQA
- Natural Question (NQ) & ALCUNA를 out-of-distribution (OOD) questions로 사용
Metric
- IK-IK Rate: 전체 질문 중에서 정확하게 답변한 비율을 뜻합니다.
- IK-IDK Rate: 전체 질문 중에서 전체 질문 중에서 올바르게 답변을 거절한 비율을 뜻합니다.
- Trutuful Rate: IK-IK Rate와 IK-IDK Rate를 더한 비율입니다.
Model
- Llama-2-7b-chat 모델을 사용
Results

5. Insights

언어 모델의 hallucination은 생각보다도 심각한 문제로 대두되고 있고 아직까지도 완벽은 커녕 꽤나 괜찮다는 해결책도 제시되지 않은 상황입니다.

RAG와 같은 방법론들이 활발히 연구되고 활용되는 이유도 이것 때문이구요.

본 연구에서는 model 전용 데이터셋을 구축해 유의미한 결과를 만들어 낸 것으로 보이는데 이를 범용적인 테크닉으로 발전시킬 수 있으면 좋겠다는 생각이 들었습니다.

모든 모델에 대해서 데이터셋을 구축할 수는 없으니까요..?

출처 : https://arxiv.org/abs/2401.13275

Can AI Assistants Know What They Don't Know?

Recently, AI assistants based on large language models (LLMs) show surprising performance in many tasks, such as dialogue, solving math problems, writing code, and using tools. Although LLMs possess intensive world knowledge, they still make factual errors

arxiv.org

'딥러닝' 카테고리의 다른 글

인공지능 최신 논문/뉴스 follow-up 꿀팁 대공개!! (NLP, LLM 위주 😄) (12)	2024.02.05
GPT-4의 토큰별 예측 확률을 확인할 수 있을까? (부분적으로 가능하다!) (0)	2024.02.03
<Agent, VLM> CogAgent: A Visual Language Model for GUI Agents (2023.12) (1)	2024.01.11
[밑바닥부터 시작하는 딥러닝] Softmax 함수, 클래스 구현하기 (미분 수식, + with Cross Entropy) (1)	2024.01.09
[대회 홍보] 월간 데이콘 이미지 기반 질의 응답 AI 경진대회 (0)	2023.07.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

<KD, Hallucination> [Idk Dataset] Can AI Assistants Know What They Don't Know? (2024.01)

1. Introduction