최근(2023.07)에 나온 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Stanford University]
GPT-3.5와 GPT-4의 2023년 3월 vs 6월 버전을 비교.
네 개의 태스크를 통해 GPT가 이전에 비해 열등한 성능을 보인다는 것을 검증
- 배경
ChatGPT의 성능이 입증된 이후로 OpenAI의 API를 활용하여 연구를 하거나 서비스를 만드는 것이 아주 보편적인 방식으로 자리잡았습니다.
그런데 흥미로운 것은 이 API로 배포되는 모델의 버전이 업데이트된다는 것이었죠.
사실 어떤 식으로 어떤 데이터들로 학습을 하는지에 대해서는 공식적으로 밝혀진 바가 없기에 미스테리로 남은 부분이지만, OpenAI 입장에서는 다른 버전의 모델을 공개하고 배포하는 데엔 분명한 이유가 있을 것으로 추측됩니다.
본 논문은 이런 관점에서 ‘과연 다른 시점에 배포된, 동일한 모델의 다른 버전이 과연 같은 성능을 가졌을까’라는 의문으로부터 연구를 시작한 결과를 정리한 것입니다.
간단한 핵심만 말하자면, “GPT는 실시간으로 멍청해지는 중”입니다.
- 연구 결과
위 그림에서 볼 수 있듯이, 본 논문에서는 네 개의 태스크로 모델의 성능을 검증 및 비교했습니다.
Solving Math Problems, Answering Sensitive Questions, Code Generation, Visual Reasoning.
네 개의 태스크는 LLM의 성능을 확인할 수 있는 대표적인 태스크로 잘 알려진 것들입니다.
놀랍게도 GPT-4의 수학 문제 풀이 능력은 단 3개월만에 97.6% 정확도에서 2.4% 정확도로 심각하게 손상되었습니다.
사실 GPT-4와 같이 초거대 언어모델은 특정 사이즈 이상의 모델에서만 발현되는 것으로 추정되는, emergent ability를 지녔다고들 말합니다.
그리고 그 대표적인 사례가 수학 문제 풀이 능력이었죠.
이전까지만 해도 모델의 사이즈를 키워도, 어떤 방법론을 적용해도 인공지능 모델이 좋은 성능을 보이지 못했던 태스크인데 파격적인 성능을 보여줬었습니다.
이 결과가 박살났다는 것은 꽤나 충격적입니다.
재밌는 것은 이 부분에 대해 오히려 GPT-3.5는 말도 안되는 성능 향상을 보여줬다는 것이죠.
정확한 이유에 대해서는 파악하기 어렵습니다만 본 논문에서는 재밌는 추측을 하는 것 같습니다.
이 태스크 뿐만 아니라 이를테면 코드 생성 능력에 대해서도 분석한 내용인데요, 결국 버전이 다른 것은 ‘최신의 유저 입력을 데이터로 사용하게 된 결과’일 것으로 추측하고 있고, 그렇기 때문에 ‘처음 학습할 당시와 다른 유형과 분포의 데이터들을 입력으로 받게 되면서 기존의 능력을 상실 or 기존의 능력보다 향상된 것이 아닐까’라고 합니다.
의외로 Visual Reasoning 태스크에서는 성능이 오히려 향상되는 모습만을 보여줬는데 그 원인도 정확히 파악하기는 어렵습니다.
GPT의 답변을 비교 분석한 결과에는 민감한 질문들에 대한 반응, 각 답변의 길이 등에 대한 것도 포함되므로 관심있으신 분들은 직접 논문을 보시는 걸 추천드립니다.
- 개인적 감상
이 논문의 핵심은 결국 버전에 따라 성능이 충분히 다를 수 있고, 그렇기 때문에 이를 활용한 서비스나 작업물들이 처음 의도대로 잘 유지되고 있는지 확실히 tracking하는 것이 중요하다는 것입니다.
이는 현재 OpenAI에 대한 의존성이 얼마나 높은지를 잘 보여주는 결과라는 생각이 들었습니다.
모델에 대한 정보도 공개하지 않는 경우가 많아졌고, 심지어 정보가 있다고 하더라도 자원의 제약으로 인해 어떤 연구나 서비스적 활용을 하기가 어려워졌기 때문에 현재 OpenAI의 API에 대해 의존하는 경향이 굉장히 강한 것 같습니다.
API가 아무리 비싸다고 해도 LLM을 직접 fine-tuning하기만 하는 것보다도 압도적으로 저렴하고 시간도 절약할 수 있습니다.
애초에 이것이 아니면 시도하기 힘든 프로젝트도 많구요.
그저께 Meta에서 LLaMA 2를 상업적으로 이용가능한 오픈소스로 공개하면서 또 굉장히 큰 파장을 일으키고 있는데, 앞으로는 이 분야의 흐름이 어떻게 이어질지 가늠하기 꽤 어려운 상황으로 보입니다.