지난 달에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ 기존에 경량화와 관련된 연구 중, pruning, distillation, quantization, frozen embeddings을 이용하여 RoBERTa를 경량화하되 준수한 성능을 유지할 수 있도록 한 모델 배경 Transformer architecture의 등장 이후로 관련된 연구가 엄청나게 많이 이뤄졌다. 갈수록 더 많은 computer resource를 요구하는 연구 경향에 비례하여 이를 경량화하고자 하는 시도들도 많이 이뤄졌다. BERT라는 모델에 대해서는 엄청나게 많은 연구가 이뤄졌지만, 좀 더 많은 자원을 필요로 하는 RoBERTa의 ..
paper review
지난 주에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ 제목 그대로 RMT 기법을 적용하여 트랜스포머가 1,000,000개의 토큰을 입력으로 받을 수 있도록 한다. 배경 transformer 기반의 모델들의 엄청난 성능이 입증된 이후 사실상 transformer로 모든 걸 해결하는 추세다. 하지만 attention 메커니즘은 구조적으로 quadratic complexity(복잡도가 이차식)를 요하기 때문에 input의 길이가 상당히 제한된다는 한계점을 지니고 있다. 이를 극복하기 위해 RMT(Recurrent Memory Transformer)라는 기법을 적용한다. Recurrent Memory Tran..