최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] 단순히 Large Foundation Models(LFMs)의 결론을 모방하지 않고, LFM의 추론 과정(reasoning process)을 배워야 성능 향상으로 이어진다. 그러나 아직까지도 LFM의 능력을 제대로 follow-up하지는 못한다(GPT-4의 벽). ChatGPT가 뜨거운 관심을 받으면서 한편으로는 모델 경량화에 대한 관심도 엄청나게 커졌습니다. 지금도 마찬가지인게 GPT나 BARD 등 사람들에게 잘 알려진 챗봇의 기반이 되는 모델들의 사이즈가 너무 커져서 개인이 운용하기가 너무 힘들어졌기 때문입니..
GPT-4
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 마인크래프트에서 LLM으로 오랫동안 생존할 수 있는 agent를 만든 논문. 기존에 비해 3배 이상의 아이템 종류 생성, 2배 이상의 탐색, 15배 이상의 테크 속도를 달성. 배경 최근 강화학습 분야에서 구체화된 agent를 생성하는 것에 LLM이 활용되는 경향이 로보틱스나 게임에 활용되고 있습니다. 그러나 agent가 지식을 쌓거나 업데이트하거나 전이하지 못해 오래 생존하지 못한다는 한계를 지니고 있었죠. 본 논문에서는 LLM으로 각 시점에 대해 적절한 태스크를 제안하고 - automatic curriculum 환경적 피드백을 통해 스킬을 연마하여..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 천 개의 curated 학습 데이터로 LLaMA를 학습하여 GPT-4에 준하는 모델을 생성한 결과를 담은 논문 배경 지금까지 언어 모델의 학습 트렌드는 1) 대규모 말뭉치를 unsupervised pretraining하고 2) large scale의 instruction tuning과 reinforcement learning을 적용하는 것입니다. 놀랄 정도로 우수한 성능을 보여준 것과는 별개로, 엄청난 수준의 자원을 필요로 한다는 것은 자명한 사실이죠. 논문의 저자는, ‘언어 모델이 학습하는 지식과 능력은 사전학습 동안 모두 습득되고, 이를 대화 형..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ LLaVA: Large Language and Vision Assistant, end-to-end 거대 멀티모달 모델. vision encoder와 LLM을 연결한 구조를 갖고 있다. 배경 인공지능 모델이 생성한 데이터를 기반으로 LLM을 Instruction tuning하는 것이 모델의 성능 향상에 큰 도움이 된다는 것은 잘 알려져 있다. 이런 방식을 통해 모델은 다양한 태스크를 두루 잘 처리할 수 있게 되었고, 덕분에 instruction tuning에 대한 관심이 뜨겁다. 그러나 multi-modal 분야(그중에서도 image-text)에 대해서는 자연어로 이미지를 간단히 설명하는 수준..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ LLM(GPT-4)을 주축으로 vision models, web search engines, Python functions 등 다양한 도구들로 구성된 통합 시스템 구축 배경 최근 LLM이 엄청난 퍼포먼스를 보이는 것은 사실이지만 명확한 한계를 보이는 것도 사실이다. 대표적으로 ‘최신 정보를 반영하지 못한다는 점’, ‘외부 도구를 이용할 수 없다는 점(오직 챗봇으로만 이용 가능)’, ‘수학적 추론 능력이 부족하다는 점’ 등을 예로 들 수 있다. 이러한 한계를 극복하기 위해서 LLM을 통합 시스템을 구축하는 데 사용하는 방법론을 제안한다. LLM이 문제를 ..
ChatGPT에 대한 관심이 아직도 엄청나게 뜨거운데, 벌써 GPT-4가 등장했습니다 🚀 AI에 큰 관심이 없던 사람들도 업무를 효율적으로 처리할 수 있게 되었고, 많은 개발자들이 API를 활용해서 여러 서비스들을 개발하고 배포중입니다. 아직까지도 서비스적인 측면에서 활용될 여지가 무궁무진하다고 생각하는데 기술의 발전 속도를 따라 잡기가 힘드네요.. 🥲 이번 포스팅에서는 OpenAI에서 GPT-4와 함께 공개한 Technical Report를 간단하게 살펴보고, 그 내용을 최대한 요약해서 한글로 정리해보고자 합니다. 사실 Appendix(부록)까지 포함하면 90페이지가 넘기 때문에.. 결론 파트까지만 다뤄볼 예정입니다!0. AbstractGPT-4는 이미지와 텍스트를 입력으로 받고 텍스트를 출력할 수 있..