관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. (Language & Knowledge Lab의 Retreival 관련)
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[RAG] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2021.04)
[Facebook AI Research]
- parametric memory는 사전학습된 seq2seq, non-parametric momory는 위키피디아의 dense vector index
- 하나의 retrieved passage로 sequence 전체를 생성하는 방식 vs 각 토큰별로 다른 retrieved passage를 참고하는 방식
- 배경
- 사전학습된 Neural Network 모델이 외부 지식 참고 없이 일으키는 hallucination 문제는 이미 오래 전부터 제기되어왔음
- Related Works
- Single-Task Retrieval, General-Purpose Architectures for NLP, Learned Retrieval
- Contributions
- knowledge-intensive tasks with generation에 대해 parametric & non-parametric memory를 결합하는 것이 좋은 성과로 이어짐
- RAG 방식을 취하는 모델이 더 factual, specific, diverse한 답변을 반환하는 것이 확인됨
- non-parametric memory는 모델의 knowledge가 업데이트됨에 따라 쉽게 replaced 가능
- Methods
- Retriever: query x가 주어졌을 때, text passages에 대한 확률을반환
- Generator: 현재 시점의 x, retrieved passage z / 현재 시점 이전까지의 y(1:i-1)이 주어졌을 때 y(i)가 등장할 확률을 반환
- 두 모델을 end-to-end 방식으로 학습
- Models
- RAG-Sequence Model vs. RAG-Token Model
- Retriever: DPR; Bert document encoder로부터의 document dense representation과 Bert encoder로부터의 dense query representation을 Maximum Inner Product Search (MIPS)
- Generator: BART; 사전학습된 seq2seq transformer 모델 BART-large를 사용
- Benchmarks
- Open-domain Question Answering, Abstractive Question Answering, Jeopardy Question Generation, Fact Verification
- 🧐
- 왜 RAG-Sequence가 RAG-Token보다 더 diverse 할 수 있는 걸까? [Table 5] Tri-gram 분석만으로 다양성을 검증했다고 볼 수 있을까?
- replacing은 정말로 타당한가? query와의 유사도를 통해 retrieve하는 방식인데?
출처 : https://arxiv.org/abs/2005.11401