관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. (Language & Knowledge Lab의 Retreival 관련)
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Evaluation] Prometheus: Inducing Fine-Grained Evaluation Capability in Language Models (2023.10)
[KAIST, Naver AI, University of Washington, MIT]
- GPT-4의 평가 수준에 준하는 완전한 오픈소스 LLM, Prometheus
- customized score rubric 기반으로 long-form text를 평가할 수 있는 13B 사이즈의 평가자 LLM, Prometheus
- 1K score rubrics, 20K instructions, 100K responses로 구성된 데이터셋, Feedback Collection
- 배경
- 최근 LLM을 evaluator로 사용하고자 하는 시도가 많으나, 다음과 같은 한계점들이 존재
- 1) Closed-source Nature: 투명성이 부족하다는 문제점
- 2) Uncontrolled Versioning: 재현 가능성에 치명적인 영향
- 3) Prohibitive Costs: 비용적인 문제로 인해 접근성이 낮음
- Related Works
- Reference-based text evaluation
- BLEU, ROUGE, BERTScore, BARTScore 등
- evaluation을 온전히 신뢰하기 어렵다는 한계
- LLM-based text evaluation
- GPT-4 또는 fine-tuned critique LLM을 single diemnsion of preference에 대한 평가자로 활용하기 시작
- 수천개의 unique preference criteria에 반응 가능한 evaluator를 공개
- rubric과 reference answer와 같은 reference materials의 중요성을 확인
- Reference-based text evaluation
- The Feedback Collection Dataset
- Step 1) Creation of the Seed Rubrics: 50개의 초기 seed rubric으로 시작
- Step 2) Augmenting the Seed Rubrics with GPT-4: GPT-4를 통해 1K new score rubrics으로 확장
- Step 3) Crafting Novel Instructions related to the Score Rubrics: 현실적인 instruction으로 augmentation
- Step 4) Crafting Training Instances: reference answers, feedback, score와 같은 나머지 요소에 대한 augmentation
- Fine-Tuning an Evaluator LM
- LLaMA-2-Chat (7B & 13B)에 대해 fine-tuning
- feedback과 score 사이에 [RESULT] 와 같은 토큰을 넣어줘서 추론 시 degneration을 방지
- Benchmarks
- Feedback Bench, Vicuna Bench, MT Bench, Flask Eval
- Baselines
- LLaMA2-Chat-{7, 13, 70}B, LLaMA-2Chat-13B + Coarse, GPT-3.5-Turbo-0613, GPT-4-{0314, 0613, Recent}, StanfordNLP Reward Model, ALMOST Reward Model
출처 : https://arxiv.org/abs/2310.08491
[Evaluation] Fine-Grained Language Model Evaluation Based on Alignment Skill Sets (2023.10)
[KAIST]
- 각 instruciton에 대해 coarse-level scoring을 skill set-level scoring로 분해
- human & mode based 평가에 대한 fine-grained evaluation protocol, FLASK
- fine-graininess of evaluation은 holistic view를 획득하는데 중요
- 배경
- 기존 LLM 평가 방식은 single metric이라서 LLM의 능력을 평가하기에 불충분
- 또한 surface form에 대해 sensitive하기 때문에 task-wise 한 평가 방식이었음
- Contributions
- 현재 오픈 소스 LLM들은 Logical Thinking과 Background Knowledge에서 proprietary LLM에 비해 현저히 열등한 성능을 보여줌
- Logical Correctness와 Logical Efficiency는 다른 스킬들에 비해 더 큰 모델 사이즈를 필요로 하는 경향이 짙음
- SoTA인 proprietary LLM들 역시 FLASK-Hard에 대해서는 다른 스킬 대비 50%의 성능 하락을 보임
- Related Works
- Holistic Evaluation of LLMs: accuracy, ROUGE, instance-wise fine-grained multi-metric setting
- Alignment of LLMs: instruction tuning, RLHF
- FLASK
- Skill Set Categorization: 총 12개의 skills
- Logical Thinking, Background Knowledge, Problem Handling, User Alignment
- Evaluation Data Construction
- 122개의 데이터셋으로부터 1,740개의 instance를 생성
- essential skills to follow the instruction, target domains, the difficulty level of the instructions를 포함하는 metadata에 대해 annotate
- Evaluation Process
- 각 instance에 대한 annotated metadata를 활용하여 target model의 fine-grained manner의 response를 분석
- { evaluation instruction, reference answer, response of target model, pre-defined score rubric for each selected skill } 가 주어지면 skill-specific score rubric에 따라 1~5점을 할당
- FLASK-Hard
- Level 5에 해당하는 expert-level knowledge, 89개의 instance를 생성
- 각 스킬에 대한 instance-specific score rubric을 제공
- Skill Set Categorization: 총 12개의 skills
- Results
- Fine-graininess leads to a high correlation between human-based and model-based evaluation
- Fine-grained evaluation mitigates the bias of model-based evaluation
- Open-source models significantly underperform proprietary models on particular skills
- Some skills require larger model sizes
출처 : https://arxiv.org/abs/2307.10928
[Multi-modal] Semi-Parametric Video-Grounded Text Generation (2023.01)
[Minjoon Seo]
- semi-parametric video grounded text generation model, SeViT
- video를 외부 data store 취급하여 non-parametric retriever로 접근
- longer video & causal video understanding에서 두각
- 배경
- 기존 연구들은 naive frame sampling에 기반하여 sparse video representation의 한계를 지니고 있었음
- Realted Works
- Video-Language Models: leveraging pre-trained 2D/3D vision encoder, end-to-end training
- Semi-Parametric Language Models: RAG framework를 video-language domain에 적용
- Informative Frame Selection
- Contributions
- semi-parametric architecture를 video-language domain에 적용, video를 외부 데이터 store로 활용
- RAG 기반의 SeViT가 long video & causal video understanding에서 강세를 보임
- SeViT가 iVQA, Next-QA, ActivitynetQA에서 SoTA 달성
- SeViT
- Frame Retriever: query가 주어졌을 때, relevant frames를 선택
- Video-Grounded Text Generator: Marginalization (MAR), Fusion-in-Decoder (FiD)
- Training: Query-side Fine-Tuning, Retriever Warm-up for FiD, Top-k Annealing
- Retriever: pre-trained CLIP-base/16, VGT-generator: pre-trained OFA-Base
- Benchmarks
- Video QA: TGIF-QA, MSVD-QA, MSRVTT-QA, iVQA, Next-QA, Activitynet-QA
- Video Captioning: MSVD-Caption, MSRVTT-Caption
출처 : https://arxiv.org/abs/2301.11507
[Multi-modal] Zeor-Shot Dense Video Captioning by Jointly Optimizing Text and Moment (2023.01)
[KAIST]
- dense video captioning을 zeor-shot으로 처리하는 novel mothod, ZeroTA
- soft moment mask를 도입하고, 이를 언어 모델의 prefix parameters와 jointly optimizing
- soft momnet mask에 대해 pairwise temporal IoU loss를 도입
- supvervised method에 비해 OOD 시나리오에 대해 강건함
- 배경
- 기존의 Dense video captioning은 비디오에 나타난 temporal information의 정확한 representation과 이해가 필요했기 때문에 대량의 annotation이 필요하다는 문제점이 있었음
- Related Works
- Dense video captioning, Vision-language alignment, Moment localization
- Contributions
- pinonerring zero-shot dense video captioning method, ZeroTA (Zero-shot Temporal Aligner)
- temporal localization의 end-to-end optimization을 위한 soft moment masking, localized moments의 다양성을 위한 pairwise temporal IoU loss
- few-shot method를 outperform하기도.. out-of-domain scenarios에 대해 supvervised model보다 강건한 특성
- Method
- Text generation
- Prefix context: soft prompt, projected video embedding, hard prompt
- Vision loss: vision-language alignment model CLIP를 통해 loss를 획득
- Language loss: prefix context를 포함하는 언어 모델과, 그렇지 않은 언어 모델로부터의 단어 확률 분포 간 average cross-entropy (CE)를 정량화
- Moment localization: video moment와 생성된 텍스트를 align
- Soft moment masking
- Pariwise temporal IoU loss
- Joint optimization: vision loss, language loss, pairwise temporal IoU loss의 weighted sum
- Text generation
- Benchmarks
- ActivityNet Captions, YouCook2
- Models
- ZeroTA: pre-trained CLIP ViT-L/14 + GPT-2 medium
- baselines: PySceneDetect + BLIP, PySceneDetect + TimeSformer + GPT-2, TimeSformer + GPT-2 + CLIP
- Results
- joint optimization이 two-stage method보다 효과적이다
- ZeroTA가 SoTA few-shot model을 outperform
- target task의 text space와 CLIP의 text space가 match될 필요가 있다
- ZeorTA는 out-of-domain setup에 robust하다
출처 : https://arxiv.org/abs/2307.02682
[RAG] Tree of Clarifications: Answering Ambiguous Questions with Retrieval-Augmented Large Language Models (2023.10)
[KAIST AI, Korea University, NAVER Cloud]
- Ambiguous Question (AQ)에 대한 tree of Disambiguated Question (DQ)을 recursively construct, ToC
- few-shot prompting을 통해 exernal knowledge을 이용 -> long-form answer를 생성
- 배경
- 기존에는 주어진 AQ에 대한 모든 DQ를 구하고, 이에 대한 long-form answer를 생성
- 한계 1) AQ는 multiple dimensions of ambiguity를 고려하여 clarified 되어야 한다
- 한계 2) 많은 knowledge는 DQ와 각 답변을 indentify할 필요가 있다
- Related Works
- ODQA task, LLM-based methods
- Contributions
- LLM은 트리 구조의 AQ에 대한 clarification을 다양한 path를 통해 탐색. 이때 불필요한 DQ를 prune하는 능력이 수반됨
- LLM과 retrieval system을 결합하여 AQ에 대한 long-form answer를 생성하는 최초의 방식
- Tree of Clarifications
- 1) Retrieval-Augmented Clarification (RAC)
- Wikipedia document를 탐색하기 위한 두 개의 retreival systems: 최신 dense retriever인 ColBERT, retrieved Wikipedia passages의 다양성을 보존하기 위한 Bing search engine
- 각 시스템에서 획득한 passage를 합쳐 200개 이상의 passage를 생성
- 이에 대해 SentenceBERT를 활용하여 rerank & choose top-k passages, augment them to a prompt
- 2) Tree Structure (TS)
- AQ인 root node로부터 시작하여 RAC를 재귀적으로 실행하며 child nodes를 생성
- 각 expansion step에서 현재 query에 대해 passage가 reranked
- valid node의 최대 숫자에 이르거나 최대 깊이에 이르면 과정 종료
- 3) Pruning with Self-Verification
- 타겟 노드의 정답과 루트 노드의 AQ 사이의 factual coherency를 체크
- LLM으로 하여금 현재 노드에 대한 pruned or not을 결정하게끔 prompting
- 4) Answer Generation
- 모든 valid node를 aggregate하고 AQ에 대한 comprehensive long-form answer를 생성
- 노드의 숫자가 불충분하면 pruning step에서 제거된 것들 중 root node에 가장 가까운 순서대로 복구
- 1) Retrieval-Augmented Clarification (RAC)
- Benchmarks
- ASQA: long-from QA dataset, 6K ambiguous questions
- Metrics
- 1) Disambig-F1 (D-F1)
- 2) ROUGE-L (R-L)
- 3) DR score
- intermediate ndoe를 validate하기 위해서는 Answer-F1를 사용
- Baselines
- finetuned T5-large / in-context learning GPT-3
- Results
- ToC가 fully-supervised & few-shot prompting baselines을 outperform
- retrieval systems를 통합하는 것은 정확하고 다양한 dismabiguations에 크게 기여
- pruning method는 트리로부터 유용한 disambiguations를 파악하는데 크게 도움
- Limitations
- 다른 종류나 다른 사이즈의 LLM에 대한 실험 결과 부족
- 오직 ASQA 벤치마크 하나에 대해서만 성능 확인
- multiple prompting의 비용이 상당한 편 (무시할 수준이 아니라고 언급)
- CoT와 같은 최신 prompting method를 적용해 보았음에도 불구하고 성능 향상은 없었음