관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [H4 Team] - distilled Direct Preference Optimization (dDPO)를 적용하여 sLLM이 user intent에 잘 align 될 수 있도록 함 - fine-tuning 동안 추가적인 sampling 없이 Mistral-7B 모델을 학습한 Zephyr-7B 모델을 공개 1. Introduction capable teacher model의 output을 사용하는 distilled supervised fine-tuning (dSFT) 등의 방법론이 연구 그럼에도 불구하고 여전히 smaller LM들은 not "..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] - small LMs이 각 태스크에 적합한 solution strategies를 이용하는 방법을 학습시키는 것이 목표 - 기존 모델 Orca 1 대비 강한 추론 능력을 보유할 수 있도록 학습하여 최대 10x 사이즈 모델보다도 우월한 성능을 보이는 경우가 많음을 확인함 배경 LLM이 unseen tasks에 대해 문제를 잘 처리할 수 있는 zero-shot ability가 알려짐 그러나 단순히 Teacher model의 output을 모방하는 Imitation Learning 방식은 한계가 존재 따라서 여러 태..
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] reverse KLD를 이용하여 사이즈가 큰 생성 모델로부터 distill을 적용한 MINILLM. 우수한 성능과 함께, 더 큰 사이즈의 모델에도 적용할 수 있다는 특징, 즉 scability가 특징이다. 배경 LLM이 크게 주목을 받으면서 이를 운용하기 위해 필요한 자원상의 한계가 항상 지적되었습니다. 덕분에 적은 자원을 사용하면서도 준수한 성능을 유지할 수 있도록 하는 기법들이 많이 연구되었습니다. 그중에서도 Knowledge Distillation(KD) 방식도 아주 활발히 사용되는데, 큰 ..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ 프롬프트를 Gist(요점) 토큰에 압축함으로써 모델의 태스크 처리 시간을 단축하고 메모리 효율성을 높일 수 있다. 배경 최근 LM(Language Model)을 활용하는 주된 방법 중 하나는 모델에 prompt를 제공하고 모델이 반환하는 answer를 사용하는 것이다. 태스크나 여러 상황에 따라 적절한 프롬프트를 구성하는 전략이 중요해졌고, 심지어 프롬프트 엔지니어라는 이름의 새직종이 생겨날만큼 많은 관심을 받고 있다. 그러나 모델이 입력으로 받을 수 있는 길이에 제한이 존재한다는 점을 감안하면, 길이가 꽤 되는 프롬프트를 반복적으로 사용하는 것은 꽤나 치명적인 문제가 될 수 있다. 본 논문..
지난 달에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ 기존에 경량화와 관련된 연구 중, pruning, distillation, quantization, frozen embeddings을 이용하여 RoBERTa를 경량화하되 준수한 성능을 유지할 수 있도록 한 모델 배경 Transformer architecture의 등장 이후로 관련된 연구가 엄청나게 많이 이뤄졌다. 갈수록 더 많은 computer resource를 요구하는 연구 경향에 비례하여 이를 경량화하고자 하는 시도들도 많이 이뤄졌다. BERT라는 모델에 대해서는 엄청나게 많은 연구가 이뤄졌지만, 좀 더 많은 자원을 필요로 하는 RoBERTa의 ..