관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [DI Lab, Korea University] - 언어 모델을 효과적으로 pre-train하는 concept-based curriculum masking (CCM) method를 제안 - MLM (Masked Language Modeling)의 난이도는 linguistic difficulty를 기준으로 삼음 1. Introduction 자연어 처리 분야에서 MLM (Masked Language Modeling)은 모델 성능 향상에 크게 기여했으나 많은 양의 연산 자원을 필요로 한다는 문제점을 안고 있었음 CL (Curriculum Learnin..
과거(2020.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 캐글 프로젝트를 하면서 이 모델에 대해 공부를 한 번 하고 싶어서 빠르게 읽고 간단히 정리한 내용입니다! (버전 3가 올해에 나와 있어서 그것도 얼른 공부를 해야 될 것 같네요) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] disentangled attention mechanism과 enhanced mask decoder라는 새로운 기법을 적용. 기존 BERT 및 RoBERTa 모델의 단점을 개선한 새로운 architecture, DeBERTa를 제시. 배경 당시(2020년도)에는 self-attention을 기반으로 한 여러 모델들이 쏟아..
자연어처리 분야에서 아주 큰 입지를 차지하고 있는 모델인 BERT와 BERT 기반의 파생모델들에 대해 공부한 내용을 정리해봤습니다. 구글 BERT의 정석(한빛미디어)라는 책과 각 모델 관련 논문, 그리고 인터넷의 여러 게시물들을 참고하여 최대한 간략하게 정리했습니다. 순서는 다음과 같습니다. 1. BERT 2. ALBERT 3. RoBERTa 4. ELECTRA 5. SpanBERT 실제로 자연어처리 분야의 여러 태스크를 수행할 때 자주 사용되는 RoBERTa, ELECTRA와 같은 모델들이 어떤 배경에서 등장하고 어떤 특징을 지니고 있는지 간단히 확인할 수 있도록 비교했습니다. 혹시 제가 잘못 알고 있거나 잘못 작성한 내용이 있다면 피드백 부탁드리겠습니다 🤗 (참고로 노션에서 작성한 내용을 가져와 재구..