최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Meta AI]
LLM이 상관 관계로부터 인과 추론을 할 수 있을까?에 대한 답변은 No.
관계를 나타내는 그래프 이론을 통해 LLM이 지닌 추론 능력의 한계를 드러낸 논문.
causality, 인과성을 지녔는지를 확인하는 방법은 크게 두 가지로 나뉩니다.
경험적 지식을 바탕으로 추론하고 있는가를 확인, 혹은 순수한 인과 추론 능력 확인입니다.
지금까지의 연구들은 전자에 집중되어 있습니다.
다르게 말하자면 여러 LLM들이 실제로 추론 능력을 갖추고 있는지에 대해서는 큰 관심이 없고, 대신 학습한 확률 분포를 기반으로 다음에 올 토큰을 예측하는 것 뿐이었죠.
논문 저자는 LLM이 실제로 추론 능력을 갖추고 있는지를 판단하기 위한 기존의 방식들, 즉 벤치마크가 잘못 형성되었다고 주장하며 새로운 벤치마크를 구성합니다.
이것이 40만개의 샘플로 구성된 데이터셋으로 LLM의 추론 능력을 판단할 수 있는 CORR2CAUSE입니다.
이를 구성할 때 사용된 개념을 이해하는 것은 쉽지 않아 보입니다.
관계를 나타내는 그래프 이론을 사용했기 때문인데요, 예를 들어 i, j, k의 관계에 따라 parent, child, confounder 등 다양한 개념이 적용되었습니다.
저자가 보고 싶어한 것은 LLM이 이런 객체 간의 관계를 토대로 인과성을 추론할 수 있는지입니다.
이를테면 i가 j의 부모, j가 i의 자식인 관계일 때 i가 j의 발생 원인이 된다는 것을 LLM이 논리적으로 학습한지 확인하는 것이지요.
사실 겉으로 보기에는 LLM이 그러한 능력을 지닌 것 같지만, 본 논문의 실험에 따르면 그렇지 않습니다.
단순히 i, j의 순서를 바꾸는 것만으로도 예측 정확도가 확연히 낮아졌기 때문입니다(파괴적인 성능 하락..!)
즉 LLM이 어떤 논리적, 인과적인 관계에 대해서 학습을 제대로 했다기 보다는, 단순히 확률에 기반해서 다음 토큰을 예측하고 있다는 것이고, 이는 사실상 사람들이 우려하는 것처럼 AGI가 도래했나..? 하는 걱정을 누그러뜨려줄 수 있는 근거가 되기도 합니다.
결국 앞으로의 LLM이 넘어야 할 것은 단순히 이전에 학습한 데이터들을 토대로 다음에 올 확률이 가장 높은 토큰 단위를 예측하는 것이 아닌라 진정한 추론 능력을 갖추는 것이고,
이를 본 논문에서 제시하는 벤치마크와 같은 수단들을 통해 입증할 수 있을 것입니다.
하지만 저자가 스스로 밝힌 바와 같이 어떤 객체 간의 관계를 규명하는 것도 사람이 직접 임의로 하는 것 뿐이기도 하고,
그렇기 때문에 미처 캐치하지 못한 숨겨진 객체 간의 관계도 존재할 수 있다는 한계점이 존재합니다.
한편으로는 그러한 한계도 많은 데이터가 주어지고 LLM이 이 데이터 간의 피쳐를 잘 추출하게 된다면 극복하게 될 수 있는 문제라는 생각도 들지만,
이미 엄청난 데이터들을 통해 학습한 LLM의 한계를 지적한 것이 본 논문이니 참 아이러니하다는 생각이 들기도 합니다.