관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Corporation] - 길이가 긴 텍스트에서 핵심 정보를 효과적으로 추출할 수 있도록하는 prompt compression 기법, LongLLMLingua - higher performance, much less cost, reduced latency 1. Introduction LLM의 능력을 최대로 끌어내기 위해서 각 downstream task에 적합한 prompt를 design하는 것이 중요하다는 것은 이미 잘 알려져있음 그러나 LLM을 long context scenarios에서 활용하는 것은 다음 문제점들을 야기..
LLM
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [FAIR, Meta, HuggingFace, AutoGPT, GenAI] - General AI Assistant의 성능을 평가하기 위해 real-word question으로 구성된 벤치마크, GAIA 공개 - 사람은 풀기 쉽지만 인공지능 모델은 풀기 어려운 466개 (그중 166개만 annotation 공개) Q&A pair - 무려 Yann LeCun이 저자에 포함된 논문 1. Introduction LLM은 general tasks를 처리하는 우수한 능력으로 주목을 받았으나 이를 평가하는 시스템은 아직까지 open problem 최근의 벤..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [H4 Team] - distilled Direct Preference Optimization (dDPO)를 적용하여 sLLM이 user intent에 잘 align 될 수 있도록 함 - fine-tuning 동안 추가적인 sampling 없이 Mistral-7B 모델을 학습한 Zephyr-7B 모델을 공개 1. Introduction capable teacher model의 output을 사용하는 distilled supervised fine-tuning (dSFT) 등의 방법론이 연구 그럼에도 불구하고 여전히 smaller LM들은 not "..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Alibaba, Singapore University] - 다른 source로부터의 정부를 dynamically incorporating 함으로써 LLM을 augment하는 framework, Chain-of-Knolwedge (CoK) - CoK는 구조화된 Wikidata나 table 같은 knowledge source도 이용 가능 1. Introduction hallucination 현상과 updated factual knowledge를 반영하지 못하는 것이 LLM의 단점으로 제기되어 왔음 이를 해결하기 위해 external knowledg..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Naver Clova, KAIST AI] - 여러 턴의 대화 중에서도 유저에 대한 최신 정보를 잘 불러오는 long term conversations을 위한 데이터셋 구축 - 불필요하거나 더이상 쓸모가 없어진 memory는 삭제하는 방식으로 long term conversation을 효과적으로 유지 Backgrounds human interaction의 관점에서 memory는 대화를 유지하기 위해 가장 중요한 메커니즘 중 하나 그러나 효과적으로 memory를 관리하거나 업데이트하는 것이 쉽지 않은 상황 Related Works Personali..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] - small LMs이 각 태스크에 적합한 solution strategies를 이용하는 방법을 학습시키는 것이 목표 - 기존 모델 Orca 1 대비 강한 추론 능력을 보유할 수 있도록 학습하여 최대 10x 사이즈 모델보다도 우월한 성능을 보이는 경우가 많음을 확인함 배경 LLM이 unseen tasks에 대해 문제를 잘 처리할 수 있는 zero-shot ability가 알려짐 그러나 단순히 Teacher model의 output을 모방하는 Imitation Learning 방식은 한계가 존재 따라서 여러 태..