관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Mila, McGill University, Facebook CIFAR AI Chair] - decoder-only LLM을 강력한 텍스트 encoder로 변환해주는 간단한 unsupervised approach, LLM2Vec - 1) enabling bidirectional attention 2) masked next token prediction 3) unsupervised contrastive learning, 세 개의 요소로 구성 - publicly available 데이터만 이용하여 모델을 학습 - supervised contras..
Paper Reivew
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [OpenAI] - strong pretrained model을 weak supervisor를 통해 fine-tuning 하더라도 supervisor보다 뛰어난 성능을 보인다 - 이를 weak-to-strong generalization 현상이라고 부른다 - 미래에는 superhuman model을 학습하기 위해 RLHF와 같은 테크닉들을 적용할 수 없을 것이다 1. Introduction 오늘날 많은 언어 모델들은 Reinforcement Learning from Human Feedback(RLHF)와 같은 테크닉들을 통해 학습되고 있습니다. ..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [University of Illinois at Urbana-Champaign, Tsinghua University] - 7B 사이즈를 넘지 않으면서도 top code 모델들과의 gap을 크게 줄인 fully open-source LLMs, Magicoder - OSS-Instruct & Evol-Instruct 둘을 활용하여 구축한 MagicoderS가 뛰어난 성능을 보임 1. Introduction program synthesis로도 잘 알려진 code generation은 오랜 시간에 걸쳐 지속적으로 연구되어 온 분야임 LLM의 발전에 힘입..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Technology Innovation Institute, Abu Dhabi] - Falcon-7/40/180B 모델을 공개 - RefinedWeb 데이터셋 중 600B 토큰을 공개 (전체는 5T 토큰이라고 언급) - Falcon series에 대한 detailed research 1. Introduction 언어 모델의 폭발적인 성장 및 발전은 transformer 아키텍쳐의 scability에 근간을 두고 있습니다. 본 논문에서는 이를 세 가지 관점(axes)에서 살펴보고 있습니다. Performance Scability: 사전학습에 들어가..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Alibaba, Singapore University] - 다른 source로부터의 정부를 dynamically incorporating 함으로써 LLM을 augment하는 framework, Chain-of-Knolwedge (CoK) - CoK는 구조화된 Wikidata나 table 같은 knowledge source도 이용 가능 1. Introduction hallucination 현상과 updated factual knowledge를 반영하지 못하는 것이 LLM의 단점으로 제기되어 왔음 이를 해결하기 위해 external knowledg..
최근(2023.10)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] LLaVA에서 fully-connected vision-language cross-modal connector를 사용한 LLaVA-1.5 공개. data efficient(1.2M public data) & power(SoTA on 11 benchmarks) 배경 최근에는 LLM 뿐만 아니라 LMM, 즉 Large Multimodal Models에 대한 관심도 뜨겁습니다. 여기서도 마찬가지로 전체 모델을 tuning 하지 않고도 성능을 끌어 올리는 기법 등에 대한 연구가 많이 이뤄지고 있죠. 그중..