관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[OpenAI]- 당시 computer vision system의 SoTA 모델은 사전 정의된 object 카테고리를 예측하도록 학습됨- 이미지와 어울리는 설명(caption)을 예측하도록 하는 사전학습 방식을 제안- fully supervised baseline과 비교했을 때, dataset specific training을 할 필요가 없음 (zero-shot 성능을 강조) 출처 : https://arxiv.org/abs/2103.00020Introduction논문이 제출되었던 2021년 초라면 아직 챗지피티도 나오기 한참 전이니..당시의 CV..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [OpenAI] - strong pretrained model을 weak supervisor를 통해 fine-tuning 하더라도 supervisor보다 뛰어난 성능을 보인다 - 이를 weak-to-strong generalization 현상이라고 부른다 - 미래에는 superhuman model을 학습하기 위해 RLHF와 같은 테크닉들을 적용할 수 없을 것이다 1. Introduction 오늘날 많은 언어 모델들은 Reinforcement Learning from Human Feedback(RLHF)와 같은 테크닉들을 통해 학습되고 있습니다. ..
최근(2023.07)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Stanford University] GPT-3.5와 GPT-4의 2023년 3월 vs 6월 버전을 비교. 네 개의 태스크를 통해 GPT가 이전에 비해 열등한 성능을 보인다는 것을 검증 배경 ChatGPT의 성능이 입증된 이후로 OpenAI의 API를 활용하여 연구를 하거나 서비스를 만드는 것이 아주 보편적인 방식으로 자리잡았습니다. 그런데 흥미로운 것은 이 API로 배포되는 모델의 버전이 업데이트된다는 것이었죠. 사실 어떤 식으로 어떤 데이터들로 학습을 하는지에 대해서는 공식적으로 밝혀진 바가 없기에 미스테리로 남은 부분이지만, ..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [OpenAI] LLM이 아직까지 취약한 모습을 보이는 수학 문제를 잘 풀게 할 수 있도록 새로운 데이터셋을 구축하고, 적절한 학습 방식에 대해 연구한 논문. PRM800K 라는 데이터셋을 오픈 소스로 공개했으며 process supervision 방식이 효과적이라고 발표 최근의 경험과 주변 사람들의 이야기를 통해 LLM이 어지간해서는 수학 문제를 정상적으로 풀어내지 못한다는 것을 알게 되었습니다. 간단히 생각해보면 주어진 현재 상황에서 다음에 등장할 확률이 가장 높은 토큰을 예측하는 방식은 논리적인 이해를 바탕으로 하지 않는다는 것을 알 수 있죠...
이전에 OpenAI에서 게재한 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [OpenAI] 고품질의 언어-수학 문제(8.5K개)로 구성된 데이터셋 구축. verifier를 학습시켜서 모델의 문제 풀이 능력을 향상 시킴. 배경 2021년 당시에도 LLM(Large Language Model)들의 능력에 대해 많은 관심이 있었는데, 이 모델들의 한계 중 대표적으로 꼽히는 것이 수학 문제 풀이 능력이었습니다. 정확히는 multi-step mathematical reasoning인데요, 다른 분야에서 뛰어난 퍼포먼스를 보여준 것과 달리 이 태스크에 대해서는 문제를 굉장히 쉽게 준다고 하더라도 잘 맞히지 못했죠. ..
ChatGPT에 대한 관심이 아직도 엄청나게 뜨거운데, 벌써 GPT-4가 등장했습니다 🚀 AI에 큰 관심이 없던 사람들도 업무를 효율적으로 처리할 수 있게 되었고, 많은 개발자들이 API를 활용해서 여러 서비스들을 개발하고 배포중입니다. 아직까지도 서비스적인 측면에서 활용될 여지가 무궁무진하다고 생각하는데 기술의 발전 속도를 따라 잡기가 힘드네요.. 🥲 이번 포스팅에서는 OpenAI에서 GPT-4와 함께 공개한 Technical Report를 간단하게 살펴보고, 그 내용을 최대한 요약해서 한글로 정리해보고자 합니다. 사실 Appendix(부록)까지 포함하면 90페이지가 넘기 때문에.. 결론 파트까지만 다뤄볼 예정입니다!0. AbstractGPT-4는 이미지와 텍스트를 입력으로 받고 텍스트를 출력할 수 있..