최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 영어를 중심으로 학습된 다국어 모델들과 달리 한국어에 집중 강화된 모델인 Polyglot Korean 모델을 소개. 배경 LLM이 엄청난 능력을 바탕으로 다양한 태스크를 굉장히 잘 처리함에도 불구하고 소수 언어들에 대해서는 약세를 보인다는 한계를 아직도 극복하지 못했습니다. 인공지능 모델은 데이터를 학습 재료로 사용하기 때문에, 학습 과정에서 해당 언어의 데이터가 적다면 당연히 좋은 성능을 발휘하기가 쉽지 않습니다. 따라서 multi-lingual 모델을 억지로 만드려고 하기보다는 특정 언어에 집중한 모델을 만드는 것이 효율적이라고 느끼는 듯합니다...
Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 마인크래프트에서 LLM으로 오랫동안 생존할 수 있는 agent를 만든 논문. 기존에 비해 3배 이상의 아이템 종류 생성, 2배 이상의 탐색, 15배 이상의 테크 속도를 달성. 배경 최근 강화학습 분야에서 구체화된 agent를 생성하는 것에 LLM이 활용되는 경향이 로보틱스나 게임에 활용되고 있습니다. 그러나 agent가 지식을 쌓거나 업데이트하거나 전이하지 못해 오래 생존하지 못한다는 한계를 지니고 있었죠. 본 논문에서는 LLM으로 각 시점에 대해 적절한 태스크를 제안하고 - automatic curriculum 환경적 피드백을 통해 스킬을 연마하여..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 이미지의 특정 포인트를 ‘잡아 당겨서’ 원하는대로 변환할 수 있도록 만드는 GAN 기반 모델 최근 가장 화제인 논문 중 하나로, 이미지를 변형하는 모델이라고 볼 수 있습니다. 이런 분야가 주목을 받은 이유 중 하나는 자연어로 이미지를 변형 시키는 기술이 나타났기 때문인데요, 예를 들어 Microsoft Designer라는 서비스를 보면, 인공지능에게 프롬프트를 입력하여 여러 이미지(디자인 관련)를 생성하거나 변형할 수 있습니다. 그러나 자연어만으로는 정밀한 컨트롤(예를 들어 물체를 몇 픽셀 정교하게 이동)이 불가능하기 때문에 기존의 모델을 더 발전시..
이전에 OpenAI에서 게재한 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [OpenAI] 고품질의 언어-수학 문제(8.5K개)로 구성된 데이터셋 구축. verifier를 학습시켜서 모델의 문제 풀이 능력을 향상 시킴. 배경 2021년 당시에도 LLM(Large Language Model)들의 능력에 대해 많은 관심이 있었는데, 이 모델들의 한계 중 대표적으로 꼽히는 것이 수학 문제 풀이 능력이었습니다. 정확히는 multi-step mathematical reasoning인데요, 다른 분야에서 뛰어난 퍼포먼스를 보여준 것과 달리 이 태스크에 대해서는 문제를 굉장히 쉽게 준다고 하더라도 잘 맞히지 못했죠. ..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 워싱턴 대학에서 제출한, PEFT(Parameter Efficient Fine Tuning) 기법 중 하나를 다룬 논문. 65B개 파라미터를 갖는 모델을 48GB GPU 한 장으로 finetuning할 수 있도록 만들었다. 배경 최근 언어 모델 관련 분야에서는 가장 주목을 받는 기술이 모델 경량화인 것 같습니다. 모델 자체를 light하게 만드는 것보다는 사전 학습된 모델을 최대한 적은 자원으로 fine tuning할 수 있도록 만드는 기술들에 관련된 것이죠. 특히 메타에서 만든 LLaMA의 등장 이후로 정말 많은 개인(물론 이것도 자원을 아예 필요..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 천 개의 curated 학습 데이터로 LLaMA를 학습하여 GPT-4에 준하는 모델을 생성한 결과를 담은 논문 배경 지금까지 언어 모델의 학습 트렌드는 1) 대규모 말뭉치를 unsupervised pretraining하고 2) large scale의 instruction tuning과 reinforcement learning을 적용하는 것입니다. 놀랄 정도로 우수한 성능을 보여준 것과는 별개로, 엄청난 수준의 자원을 필요로 한다는 것은 자명한 사실이죠. 논문의 저자는, ‘언어 모델이 학습하는 지식과 능력은 사전학습 동안 모두 습득되고, 이를 대화 형..