최근(2023.08)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [NVIDIA, USA] retrieval-augmented masked language modeling과 prefix language modeling을 결합한 모델, RAVEN. 추가적인 학습이나 모델의 변형 없이 few-shot performance를 향상시킬 수 있는 Fusion-in-Context-Learning(FiCL)를 제안. 배경 LLM의 general한 능력, 즉 다양한 태스크를 잘 수행할 수 있는 능력은 충분히 입증되었지만, 각 태스크에 맞게끔 tuning하는 것은 너무 많은 비용을 필요로 한다는 문제점이 있습니다...
Paper Reivew
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Meta] 기존의 parameter-efficient fine-tuning(PEFT) 방식들을 집대성하여 만든 fine-tuning 기법, Generalized LoRA(GLoRA) large-scale deep neural network는 지난 몇 년 간 눈부신 발전을 이룩했습니다. 특히 transformer 아키텍쳐를 기반으로 NLP 분야가 엄청나게 빠른 성장을 이룬 것에 영향을 받아, 이 아키텍쳐는 이미지 분야로까지 전파되어 기존의 연구 성과들을 다 엎을 수준의 영향을 주었죠. 이는 인공지능 모델들의 사이즈가 굉장히 커지는, ..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [OpenAI] LLM이 아직까지 취약한 모습을 보이는 수학 문제를 잘 풀게 할 수 있도록 새로운 데이터셋을 구축하고, 적절한 학습 방식에 대해 연구한 논문. PRM800K 라는 데이터셋을 오픈 소스로 공개했으며 process supervision 방식이 효과적이라고 발표 최근의 경험과 주변 사람들의 이야기를 통해 LLM이 어지간해서는 수학 문제를 정상적으로 풀어내지 못한다는 것을 알게 되었습니다. 간단히 생각해보면 주어진 현재 상황에서 다음에 등장할 확률이 가장 높은 토큰을 예측하는 방식은 논리적인 이해를 바탕으로 하지 않는다는 것을 알 수 있죠...