관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[UC Berkeley, Stanford University]- 운영체제에서 가상메모리와 페이징 기법에 착안한 PagedAttention을 제안- 이를 기반으로 하는 vLLM을 개발했는데, (1) KV 캐시 메모리의 낭비가 거의 없고 (2) 불필요한 메모리 사용을 최소화 한다는 특징이 있음 출처 : https://arxiv.org/abs/2309.06180깃허브 : https://github.com/vllm-project/vllm1. Introduction최근 가장 감명 깊게 읽은 PagedAttention에 대해 간단히 리뷰를 해보려고 합니다...
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[Dartmouth College]- position bias를 정량적으로 평가할 수 있도록 돕는 프레임워크를 개발- MTBecnh와 DevBench의 22개 태스크에 대해 40개 모델로 답변을 생성하고, 이를 9개의 평가 모델로 평가하여 실험한 결과- position bias가 단순한 random variation이 아니라 특정한 모델 간 관계를 지닌다는 것을 입증 출처 : https://arxiv.org/abs/2406.07791v11. Introduction생성형 언어 모델의 성장은 이를 다양한 태스크에 활용하는 관행으로 이어졌습니다.LLM..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️Published as a main conference paper at EMNLP 2023. Code available at this URLusechatgpt init success[University of Washington, AI2, Meta AI]- long-form text generation의 factuality를 평가할 때, binary judgments(supported/unsupported) & huge cost of human evaluatoin 이슈가 존재- 생성 결과를 일련의 atomic facts로 쪼갠 뒤 각 fact를 평가한 결과를 합쳐 score를 구하는 방식..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[Microsoft]- 3.3T개 토큰을 학습한 3.8B 사이즈의 모델 phi-3-mini를 공개. 사이즈가 굉장히 작음에도 불구하고 Mixtral 8x7B, GPT-3.5급의 추론 능력을 보여주어 화제.- multi-lingual 특성을 강화하여 학습한 phi-3-small 모델(7B)과 mini 모델을 추가학습한 phi-3-medium 모델(14B)을 함께 공개 출처 : https://arxiv.org/abs/2404.142191. Introduction지난 몇 년 간 인공지능의 눈부신 발전은 점점 더 큰 모델과 데이터셋을 만..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Mila, McGill University, Facebook CIFAR AI Chair] - decoder-only LLM을 강력한 텍스트 encoder로 변환해주는 간단한 unsupervised approach, LLM2Vec - 1) enabling bidirectional attention 2) masked next token prediction 3) unsupervised contrastive learning, 세 개의 요소로 구성 - publicly available 데이터만 이용하여 모델을 학습 - supervised contras..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ (코드 구현에 관한 내용은 마지막에 다루고 있습니다!!) usechatgpt init success [University of Washington] - 기학습된 모델을 4-bit로 quantize한 뒤 Low Rank Adapters(LoRA)를 학습하는 방식 - QLoRA로 학습된 model family, Guanaco를 공개. - ChatGPT의 99.3% 성능을 발휘할 수 있는 65B 모델을 single GPU에서 24시간 동안 fine-tuning - 세 개의 tenchiques: (a) 4-bit NormalFloat (NF4), (b) Double Quantization, (..