최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ 현재 LLM들이 가지는 입력의 길이 제한 문제를 엄청나게 개선하는 방법에 관한 논문 배경 최근 ChatGPT의 등장 이후로 LLM에 대한 관심이 뜨겁고 실제로 그 성능이 어마무시하게 좋다는 것은 잘 알려져 있다. 그럼에도 불구하고 이러한 LLM들은 transformer 기반의 architecture를 사용하기 때문에, ‘입력의 길이가 제한’되고 ‘이 길이를 늘리는 데 드는 비용이 엄청나게 크다’는 문제점이 있었다. 대표적인 예로 사람들이 챗봇을 통해 처리하기 원하는 것 중 하나가 문서 요약인데, 길이가 조금만 길어도 이를 잘 처리하지 못하는 모습을 쉽게..