지난 주에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ 제목 그대로 RMT 기법을 적용하여 트랜스포머가 1,000,000개의 토큰을 입력으로 받을 수 있도록 한다. 배경 transformer 기반의 모델들의 엄청난 성능이 입증된 이후 사실상 transformer로 모든 걸 해결하는 추세다. 하지만 attention 메커니즘은 구조적으로 quadratic complexity(복잡도가 이차식)를 요하기 때문에 input의 길이가 상당히 제한된다는 한계점을 지니고 있다. 이를 극복하기 위해 RMT(Recurrent Memory Transformer)라는 기법을 적용한다. Recurrent Memory Tran..