NLP 관련 논문을 읽어보고 간단히 정리했습니다(최근 논문 위주로!)
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
<Vacillation> Ask Again, Then Fail: Large Language Model's Vacillations in Judgement (2023.10)
[Nanjing University]
- Follow-up Questioning Mechanism을 제안
- Direct Form vs. Progressive Form
- ChatGPT, PaLM2-Bison, Vicuna-13B 모델에 대해 실험
- LLM의 답변에 의문을 제시하는 프롬프트를 추가로 제공하면, 기존의 판단을 철회하는 경향이 아주 짙음
- 모델의 답변을 신뢰할 수 있는지에 대한 의문이 제기
- 세 가지 follow-up questioning 유형
- closed-ended, open-ended, leading questions
- 두 가지 form
- Direct: 세 가지 유형 중 하나를 선택
- Progressive: 세 질문 유형을 순서대로 사용
- Follow-up Questioning Mechanism을 평가하기 위한 두 개의 Metrics
- Modification (M.): Mechanism을 적용하기 전후의 모델 퍼포먼스 차이
- Modification Rate (M. Rate): 초기 모델 퍼포먼스에 대한 Modification 비율
- 둘 다 값이 낮을수록 더 강건하고 신뢰성 있는 모델이라는 것을 의미하게 됨
- 확실히 Progressive Form이 모델의 신뢰도를 떨어뜨리는데 크게 기여할 수 있다는 것을 알 수 있음
- Benchmarks
- Arithmetic Reasoning, Commonsense Reasoning, Symbolic Reasoning, Knowledge Reasoning
- Few-Shot Prompting을 통해 이러한 현상을 어느정도 방지할 수 있음
<Attention> BitNet: Scaling 1-bit Transformers for Large Language Models (2023.10)
[Microsoft Research]
- scalable & stable 1-bit Transformer architecture, BitNet 제안
- nn.Linear 대신 BitLinear를 도입
- 지금까지 여러 quantization 기법들이 존재했지만 학습 동안에 모델이 잘 최적화되지 않는다는 한계가 명확히 존재
- quantization-aware training 방식 또한 같은 한계에 직면
- quantization-aware training 방식 중 LLM을 위한 1-bit Transformer Architecture를 제안
- BitLinear
- signum function을 통해 +1 또는 -1의 weight를 가짐
- weight의 평균은 0으로 집중시킴으로써 제한된 숫자 범위 내 모델의 capacity를 최대화
- Group Quantization and Normalization
- 계산에 서로 영향을 받지 않는 group 단위로 연산을 수행하여 빠르게 처리
- Model Training
- Straight-through estimator, Mixed precision training, Large learning rate
- 결과
- 모델 사이즈가 커질수록 메모리 효율성이 극대화됨
- FP16과 비교해도 손색이 없는 수준의 performance(accuracy)
출처 : https://arxiv.org/abs/2310.11453
[Method] Self-RAG: Learning to Retrieve, Generate and Critique
[IBM Research AI]
- Self-Reflective Retrieval-Augmented Generation (Self-RAG)
- 관련 passage를 찾아올 single arbitrary LM, reflection 토큰을 사용하여 retrieved paasage 기반 생성 및 성찰
- LM은 주어진 태스크에 대해 output을 생성하는데, 이때 reflection이라는 스페셜 토큰을 간헐적으로 같이 생성
- reflection token은 retrieval과 critique 토큰으로 구분
- Self-RAG가 판단하기에 retrieved passage가 도움이 될 것 같다면 retrieval token을 생성하게 됨. 그리고 retrieved passage를 중심으로 output을 생성.
- output에 대한 평가를 내리는 criticize 토큰을 생성하고 전반적인 퀄리티에 따라 best one을 추출
- 이는 고정된 숫자의 document를 불러오는 기존의 RAG 방식과 차이가 있음
- 관련 연구
- Retrieval-Augmented Generation, Concurrent RAG work, Training and generating with critics
- 네 개 종류의 reflection tokens; 각각 자신의 output value를 represent
- Retrieve, IsRel(evant), IsSup(proted), IsUse
- Models
- Baselines without retrievals: LLaMA2-7B/13B, ChatGPT, LLaMA2-chat13B, CoVE_65B
- Baselines with retrievals: LLaMA2, Alpaca, LLaMA2-FT, Ret-ChatGPT, Ret-LLaMA2-chat
출처 : https://arxiv.org/abs//2310.11511
[CoT] Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-Task Scenarios with Large Language Models (2023.10)
[Yale University]
- input question이 확정되지 않은 mixed-task scenarios에 적용 가능한 CoT prompting 기법, Meta-CoT
- scenario categorize -> construct demonstration
- Mixed Data Pool을 활용
- 기존 General Zero-Shot-CoT / Specific Few-Shot-CoT
- 전자는 태스크와 관계 없는 general prompt이기 때문에 few-shot 대비 성능이 떨어지는 경향
- 후자는 오히려 일반화 성능이 떨어지는 경향. task-specific prompt를 만들어주는 것도 수고스러운 일
- Related Work
- Chain-of-Thought Prompting; General Zero-Shot-CoT, Specific Few-Shot-Cot
- Cross-Task Generalization
- Partitioning Mixed Questions
- Taske-based: 10개의 태스크로부터 sample question
- Category-based: arithmetic, commonsense, symbolic reasoning
- Form-based: short-answer, multiple-choice, yes-or-no
- 성능 비교를 통해 <Category, Form> 형식으로 데이터 활용
- Overview of Meta-CoT
- (1) scenario identification: input question의 시나리오를 카테고리화
- (2) demonstration selection: 카테고리화된 시나리오에 적합한 ICL demonstration을 불러오기
- (3) answer derivation: 불러온 ICL demonstration과 question을 LLM에게 prompt로 제공하여 정답을 추론
출처 : https://arxiv.org/abs/2310.06692
[Adversarial Attack] AutoDan: Automatic and Interpretable Adversarial Attacks on Large Language Models (2023.10)
- aligned LLM에 대한 novel jailbreak attack prompt 생성 기법, AutoDAN
- hierarchical genetic algorithmdmf 이용하여 stealthy jailbreak prompts를 자동적으로 생성
- LLM은 악의적인 output을 유도하는 jailbreak attack에 취약하다는 문제점이 존재
- 그러나 현존하는 jailbreak technique들은 (1) scalability issue와 (2) stealthiness problem이 존재
- jailbreak는 크게 (1) manually written jailbreak attacks와 (2) learning-based jailbreak attacks로 구분됨
- Related Works
- Human-Aligned LLMs, Jailbreak Attacks against LLM, Genetic Algorithm
- AutoDAN; Automatically generating DAN(Do Anything Now)-series-like jailbreak prompts
- handcrafted prompts로 시작하여 novel hierarchical genetic algorithm으로 발전
- 1) 프로토 타입의 프롬프트를 LLM에게 전달
- 2) Fitness Eval: 개별 요소에 대해 genetic algorithms의 fintness에 대한 likelihood를 평가
- 3) Hierarchical Genetic Policy
- paragraph-level: selection, crossover, mutation
- sentence-level: momentum word scoring
- Dataset
- AdvBench Harmful Behaviors
- Models
- Vicuna-7b, Guanaco-7b, Llama2-7b-chat, GPT-3.5-turbo
- Results
출처 : https://arxiv.org/abs/2310.15140
[PEFT] NEFTune: Noisy Embeddings Improve Instruction Finetuning (2023.10)
[New York University]
- 학습 동안에 embedding vecotr에 noise를 더하는 방식, NEFTune
- LLaMA-2-Chat과 같은 refined with RLHF 모델도 NEFTune을 활용하여 추가 학습을 진행하면 성능이 향상됨
- Related Works
- cross-task generatlization, Reinfrocement Learning from Human Feedback(RLHF), Noisy Inputs
- Models
- LLaMA-1, LLaMA-2, OPT-6.7B
- Datasets: only single-turn dataset만 활용
- Alpaca, Evol-Instruct, Open-Platypus, ShareGPT
- NEFTune: Noisy Embedding Instruction Finetuning
- random noise vector를 embedding에 add
- noise는 [-1, 1] 범위 내에서 iid uniform sampling하고 'alpha / sqrt(Ld)'로 normalize
- scaling rule - alpha: tunable parameter, L: sequence length, d: embedding dimension
- 결과를 평가하는 evaluator로 GPT-4 또는 ChatGPT를 활용
- Results
- NEFTune Improves Text Quality: LLM의 대화 능력이 큰 폭으로 향상(win rate가 평가 지표)
- NEFTune Can Improve Chat Models: Chat model 역시 추가 tuning을 통해 성능이 향상
- Effect on Capabilites: LLM이 가진 기존의 성능은 거의 그대로 유지됨
- NEFTune Works with QLoRA: full-finetuning만큼의 scability가 관측되지는 않지만 compatible 전략임
- less overfitting & better generalization: Alpaca 데이터셋에 대한 학습 동안에는 loss가 기존 대비 높지만, test에서는 더 낮음
- longer length & identical diversity: verbosity가 높아짐에 따라 길이가 더 긴 문장을 반환하는 경향이 나타남. 그럼에도 불구하고 BLEU, ROUGE 스코어 등을 통해 확인해본 결과 학습셋에 포함된 단어를 그대로 반환하는 경향이 낮음. 즉 다양성이 그대로 보존되고 있다는 것을 알 수 있음
출처 : https://arxiv.org/abs/2310.05914
[Method] VeRA: Vector-based Random Matrix Adaptation (2023.10)
[Qualcomm AI Reserach]
- 학습 가능한 파라미터의 수를 LoRA 대비 10x 가까이 줄이는 Adaptation 기법, VeRA
- 모든 레이어에 걸쳐 공유되는 single pair의 low-rank matrices를 사용
- 대신 small scaling vector를 학습
- Contributions
- inference 관련 추가 비용을 필요로 하지 않는 novel finetuning method를 도입
- natrual language understanding (GLUE), natural language generation (E2E), instruction-following task에 대한 LoRA와의 비교 평가
- 모델의 개별 요소에 대한 이해와 퍼포먼스 향상을 위한 ablation study
- Related Works
- Low-Rank Adaptation (LoRA), AdaLoRA
- Parameter Efficiency in Existing Methods
- VeRA
- LoRA에서는 weights matrix W가 low-rank matrix A와 B로 나누어져 업데이트를 진행 -> 두 matrix A, B를 frozen
- 모든 레이어에 걸쳐 공유되며 학습 가능한 vector d, b를 사용
- frozen low-rank matrices A, B는 Kaiming initialization 방식을 따라 normal distribution으로 초기화
- vector d는 1로 초기화, vector b는 0으로 초기화
- Benchmarks
- NLU를 위한 GLUE, NLG를 위한 E2E, Instruction
- Baselines
- Full finetuning, Bitfit, Adapter tuning, LoRA
출처 : https://arxiv.org/abs/2310.11454
[RAG] Atlas: Few-shot Learning with Retrieval Augmented Language Models (2022.09)
[Meta AI Research]
- carefully designed and pre-trained retrieval augmented language model, Atlas
- model able to learn knowledge intensive tasks with very few training examples
- 50x 더 적은 파라미터 사이즈임에도 불구하고 540B 모델을 3% outperform
- Contributions
- downstream few-shot learning과 sample efficiency를 바탕으로 retrieval-augmented language model을 디자인하고 학습
- 표준 LLM 대비 작은 scale의 모델임에도 불구하고 뛰어난 few-shot ability를 보여줌
- retriever와 LM이 task에 효과적으로 adapt할 수 있도록하는 fine-tuning 전략
- Atlas의 updatability & interpretability를 입증
- Related Works
- Retrieval in natural language processing
- Retrieval for knowledge intensive task, Retriever training, Retroeval-augmented language models, Retrieval-Augmentation with Search Engines
- Few-shot learning
- In-context Learning with large Language models, Few-shot finetuning and prompt-based learning
- Retrieval in natural language processing
- Method: Retriever와 Language Model, 두 개의 sub-model로 구성된 아키텍쳐
- Retriever: Contriever라는 continuous dense embeddings 기반의 information retrieval technique
- BERT-base 아키텍쳐
- query와 document가 transformer encoder에 의해 독립적으로 embedded되는 dual-encoder 구조
- 각 query와 document마다 한 개의 vector representation을 얻기 위해 last layer의 output에 average pooling 적용
- document annotation 없이 query & document encoder가 학습될 수 있다는 dense retriever의 장점
- 네 개의 loss function 비교; Attention Distillation(Adist), End-to-end training of Multi-Document Reader and Retriever(EMDR^2), Perplexity Distillation(PDist), Leave-one-out Perplexity Distillation(LOOP) -> 이중에서 PDist를 채택
- Language Model
- T5 sequence-to-sequence 아키텍쳐
- Fusion-in-Decoder modification
- Pretext task: retriever와 LM을 unsupervised data를 이용하여 jointly pre-train
- Prefix language modeling
- Masked language modeling
- Title to section generation
- Retriever: Contriever라는 continuous dense embeddings 기반의 information retrieval technique
- Benchmarks
- Knowledge-Intensive Language Tasks(KILT)
- Massively-Multitask Language Understanding(MMLU)
- 그 외