'Bert' 태그의 글 목록

<Document> LayoutLM: Pre-training of Text and Layout for Document Image Understanding (2019.12)

2024.05.05· Paper Review

관심 있는 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[Microsoft]- scan된 문서에 대한 text와 layout 정보 간의 interaction을 함께 학습- 사전학습 단계에서 문서 단위로 학습 출처 : https://arxiv.org/abs/1912.133181. IntroductionBusiness document를 이해하고 그 정보를 활용하기 위한 연구는 오래 전부터 이어져오고 있었습니다.기존에는 대부분의 문서 작업을 사람이 직접 하는 방식이었기 때문에, 이를 인공지능 모델을 이용하여 효율적으로 해결하고자 한 것이죠.그러나 실제로 여러 문서들은 다양한 layout과 형식으로 구성되는 경우가..

<Distillation> [Tutok-KD] Tutoring Helps Students Learn Better: Improving Knowledge Distillation for BERT with Tutor Network (2022.12)

2023.12.11· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [DI Lab, Korea University] - 사전 학습 동안에 학습 예시들의 난이도를 조절함으롰 dillation의 효율성을 높인 Tutor-KD - 샘플의 난이도는 teacher model에게는 쉽고 student model에게는 어려운 것으로 조절 - policy gradient method를 활용 1. Introduction Pre-trained Language Models (PLMs)은 뛰어난 성능으로 NLP 분야에서 크게 주목 받았으나 많은 자원을 필요로 한다는 한계를 지님 이를 해결하기 위한 방법 중 하나로 Knowledge D..

<Curriculum> Efficient Pre-training of Masked Language Model via Concept-based Curriculum Masking (2022.12)

2023.12.08· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [DI Lab, Korea University] - 언어 모델을 효과적으로 pre-train하는 concept-based curriculum masking (CCM) method를 제안 - MLM (Masked Language Modeling)의 난이도는 linguistic difficulty를 기준으로 삼음 1. Introduction 자연어 처리 분야에서 MLM (Masked Language Modeling)은 모델 성능 향상에 크게 기여했으나 많은 양의 연산 자원을 필요로 한다는 문제점을 안고 있었음 CL (Curriculum Learnin..

<LM> DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

2023.09.16· Paper Review

최근(2023.03)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research / Azure AI] DeBERTa의 MLM을 RTD로 대체하고, 새로운 gradient-disentangled embedding sharing 방식을 적용. multilingual 모델 mDeBERTaV3도 개발. 배경 지난 번에 소개한 모델 DeBERTa는 relative position을 더 잘 반영하는 disentangled attention과 absolute position을 반영하는 enhanced mask decoder(EMD)을 주요 특징으로 내세웠습니다. 본 논문에서 DeBERTa는..

<LM> DeBERTa: Decoding-enhanced BERT with Disentangled Attention

2023.09.15· Paper Review

과거(2020.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 캐글 프로젝트를 하면서 이 모델에 대해 공부를 한 번 하고 싶어서 빠르게 읽고 간단히 정리한 내용입니다! (버전 3가 올해에 나와 있어서 그것도 얼른 공부를 해야 될 것 같네요) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] disentangled attention mechanism과 enhanced mask decoder라는 새로운 기법을 적용. 기존 BERT 및 RoBERTa 모델의 단점을 개선한 새로운 architecture, DeBERTa를 제시. 배경 당시(2020년도)에는 self-attention을 기반으로 한 여러 모델들이 쏟아..

[HuggingFace 🤗] Transformers를 활용한 모델 config 커스텀하기! (layer의 개수를 바꿔보자! - 와 쉽다!!)

2023.06.24· 딥러닝

오늘은 어느 정도 모델링에 익숙해진 분이라면 누구나 한번 쯤 마주할 수 있는 상황에 대해 글을 남겨보고자 합니다. 요즘은 HuggingFace에 등록되지 않은 인공지능 모델이 없는 수준이죠. (그래서 기업도 단순히 from_pretrained만 할 줄 아는 사람을 원하지 않고요) 그런데 가끔은 내가 원하는대로 모델 설정을 바꾸고 싶지만 그게 마음대로 잘 되지는 않습니다. 사용자들이 편리하게 이용할 수 있게끔 만들어놓은 라이브러리는 결국 여러겹으로 쌓여있는 형태라서, 이를 마음대로 변경하려면 특별한 방법들이 필요하죠. 그래서 오늘은 HuggingFace에서 모델을 불러올 때 config를 직접적으로 수정해서 불러오는 방법에 대해 짤막하게 소개하고자 합니다. 상황은 다음과 같이 정리합니다. 1. Bert M..

티스토리툴바