최근에 나온 논문을 읽어보고 간단히 정리했습니다.
노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
LLM(GPT-4)을 주축으로 vision models, web search engines, Python functions 등 다양한 도구들로 구성된 통합 시스템 구축
- 배경
최근 LLM이 엄청난 퍼포먼스를 보이는 것은 사실이지만 명확한 한계를 보이는 것도 사실이다.
대표적으로 ‘최신 정보를 반영하지 못한다는 점’, ‘외부 도구를 이용할 수 없다는 점(오직 챗봇으로만 이용 가능)’, ‘수학적 추론 능력이 부족하다는 점’ 등을 예로 들 수 있다.
이러한 한계를 극복하기 위해서 LLM을 통합 시스템을 구축하는 데 사용하는 방법론을 제안한다.
LLM이 문제를 처리하기 위해 필요한 툴을 스스로 선정하고 이를 순서대로 실행시켜 최종 결과물을 얻어내는 방식인 것이다.
- 검증
ScienceQA : multi-modal QA 벤치마크
TabMWP : 다양한 tabular context를 포함하는 mathematical 벤치마크
- Tools
사용되는 tool을 정리한 표.
재사용이 가능한 tool이라는 것은 이전에 얻은 결과물을 다시 쓸 수 있다는 뜻이다.
cached information으로 구분된다.
예를 들어 이전 knowledge retrieval 결과를 저장해 두었다가 다른 query에 사용할 수 있다는 것이다.
- 모델 컨셉
- 특정 제한 사항을 고려하여 input query에 대해 planner 모델이 계획을 세운다.
- 이 계획을 바탕으로 각 time step마다 사용되는 모듈에 현재 시점의 입력과 이전 시점의 cached information이 주어지고, 이를 토대로 결과물을 생성한다.
- 이 결과물을 바탕으로 다음 time step의 input, cache를 업데이트 한다.
- 모듈로부터 얻은 모든 time step의 결과를 합쳐 답변을 생성한다.
- 개인적 감상
👍🏻
논문이 제시한 컨셉은 이미 많이 알려져 있어서 놀라운 것은 아니었다.
이미 OpenAI에서도 일부 개발자를 대상으로 Plug-In 시스템을 공개했고, 최근 Microsoft에서 공개한 HuggingGPT(feat. JARVIS)는 사실 이 논문의 컨셉보다 훨씬 거대한 아키텍쳐를 가지고 있다.
그럼에도 불구하고 굉장히 실용적인 접근이라는 생각이 들었다.
Tools를 보면 OpenAI, Hugging Face, Github, Bing, Python 등인데 API와 이를 사용할 재원만 존재한다면 충분히 사용 가능한 방식이 아닐까 싶었다.
굉장히 유사한 것 중 하나가 아주 최근에 나와 엄청나게 핫한 AutoGPT인데, 확실히 LLM을 컨트롤 타워로 삼고자 하는 시도가 성과도 좋고 매력적이라는 생각이 든다.
👎🏻
이런 대단한 컨셉을 뒷받침 할 수 있는 자원, 비용에 관한 언급은 거의 없다.
HuggingGPT의 경우 엄청난 컴퓨팅 자원을 필요로 한다는 것이 문제라고 스스로 언급했었는데, 그런 개념은 아니긴 하지만 얼마만큼의 자원이 필요한지, 그리고 시간은 얼마나 걸리는지를 밝혔어야 하지 않나 싶다.
또한 검증 데이터셋이 굉장히 제한적이라는 것도 짚을 만한 점이라고 생각한다.
과학 multi-modal QA와 수학적 추론 데이터셋으로 검증했는데, 사실 이런 태스크를 처리하기 위한 컨셉이 아니라는 생각이 든다.
보다 다양하고 폭 넓은 태스크를 처리하기 위해 LLM을 컨트롤 타워로 사용한 것일텐데 다른 분야에 대해 성능을 검증하지 않고 좋은 퍼포먼스를 보인다고 내세우는 것은 조금 아쉽게 느껴졌다.
마지막으로 중간 과정에서 발생할 수 있는 오류에 대한 언급이 없는 점이 아쉽다고 느껴졌다.
관련 연구들을 볼 때도 들었던 의문인데, 쉽게 말하자면 첫 단추를 잘못 꿰면 나머지도 다 무너지는 것이 아닌가, 하는 것이다.
예를 들어 Bing Search가 필요해서 했는데 이 결과가 좋지 않다면 이후에 뭘 하더라도 만족스럽지 않은 답변이 생성될 것이다.
이런 오류에 대해서 어떤 예방 조치를 할 수 있는지, 이런 오류가 발생할 확률은 얼마나 될 지에 대한 의문이 있는데 역시나 언급이 없어서 아쉽다고 생각했다.