최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Univ. of Washington] 여러 개의 reward 모델을 사용하고, 생성 문장 전체가 아닌 개별 문장에 피드백을 줘서 학습하는 것이 경제적이고 더 효율적이라고 주장하는 논문 배경 대중들에게도 AI가 친숙해지는데 가장 큰 공헌을 한 것은 RLHF(Reinforcement Learning with Human Feedback)이 아닐까 싶습니다. 이 덕분에 ChatGPT가 정말 ‘사람처럼’ 응답하고 품질이 우수한 답변을 내놓을 수 있게 되었으니까요. 그런데 본 논문에서는 기존의 RLHF 방식의 한계점을 지적하고 있습니다. 생성..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 워싱턴 대학에서 제출한, PEFT(Parameter Efficient Fine Tuning) 기법 중 하나를 다룬 논문. 65B개 파라미터를 갖는 모델을 48GB GPU 한 장으로 finetuning할 수 있도록 만들었다. 배경 최근 언어 모델 관련 분야에서는 가장 주목을 받는 기술이 모델 경량화인 것 같습니다. 모델 자체를 light하게 만드는 것보다는 사전 학습된 모델을 최대한 적은 자원으로 fine tuning할 수 있도록 만드는 기술들에 관련된 것이죠. 특히 메타에서 만든 LLaMA의 등장 이후로 정말 많은 개인(물론 이것도 자원을 아예 필요..