LLM

· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [LK Lab, KAIST] - prompt를 LM의 파라미터에 주입하는 방식, Prompt Injection (PI)를 제안 - novel distillation approach, Pseudo-INput Generation (PING)를 제안 - prompt를 input에 prepend하는 기존 방식 대비 우수한 성능 달성 배경 input에 prompt를 attach함으로써(prefixes) LM을 특정 태스크에 맞게 조정하는 것이 가능 그러나 이처럼 prompt와 input을 단순 concatenate하는 prompt-dependent 방식은..
· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [LK Lab, KAIST] - LLM에게 negated prompts를 제공하면 모델 사이즈에 성능이 반비례하는 inverse scaling law를 보임 - (1) pretrained LM (2) instruct (3) few shot (4) fine-tuned 비교 배경 LM이 다양한 downstream tasks에 대해 prompt를 통해 fine-tuning되어 unseen tasks에 대한 performance가 뛰어나다는 것이 알려짐 LM은 뛰어난 능력을 바탕으로 마치 사람의 뇌처럼 여러 로봇을 조작하는 등 중심 역할로 자리잡는 경우..
· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Tencent AI Lab] - noisy & irrelevant document, 그리고 unknown scenarios에 대한 RALM의 robustness를 개선한 approach, Chain-of-Noting (CoN) - ChatGPT를 사용하여 training data 생성 후 LLaMA-2 7B 모델 학습 배경 LLM의 능력을 활용하는 방법으로 외부 knowledge source를 이용하는 RAG 방식이 도입. Retrieval-Augmented Language Models (RALMs) Information Retrieval (I..
· Paper Review
관심있는 최신 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Singapore University] - valid & invalid reasoning demonstrations을 함께 제공하여 reasoning mistakes를 줄이는 approach, Contrastive Chain-of-Thought - contrastive demonstration을 자동적으로 구축하는 방법을 제시 배경 LLM과 관련하여 모델 사이즈를 키우는 것만으로는 complex reasoning tasks에 대한 좋은 일반화 성능을 기대하기 어려움 invalid reasoning demonstration을 포함하는 것이 ..
· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research, University of illinois] - multiple personas로 multi-turn self-collaboration을 통해 LLM을 cognitive synergist으로 변환, Solo Performance Prompting (SPP) - SPP를 통해 internal knowledge acquisition 능력을 향상시키고, hallucination을 줄이며, reasoning capabilities를 유지 배경 LLM은 여전히 knowledge-intensive & reasoning-i..
· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ [BigScience] - 사전학습된 encoder-decoder 모델 T5를 explicit multi-task learning으로 fine-tuning한 모델, T0 - 다양한 태스크에 대한 zero-shot 성능 일반화 & prompt를 구성하는 word의 다양성 확보 (robustness) 배경 LLM이 새로운 태스크에 대해 뛰어난 zero-shot 성능을 보이는 것이 확인됨 그러나 학습 때 접하지 않았던 태스크에 대해 좋은 성능을 보이기 위해선 1) 충분히 큰 사이즈의 모델이 필요하고 2) prompt를 구성하는 단어에 영향을 받지 않게 만들어야 함 지금까지는 multitask ..
chanmuzi
'LLM' 태그의 글 목록 (11 Page)