'microsoft research' 태그의 글 목록

<sLLM, Distillation> Orca 2: Teaching Small Language Models How to Reason (2023.11)

2023.11.24· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] - small LMs이 각 태스크에 적합한 solution strategies를 이용하는 방법을 학습시키는 것이 목표 - 기존 모델 Orca 1 대비 강한 추론 능력을 보유할 수 있도록 학습하여 최대 10x 사이즈 모델보다도 우월한 성능을 보이는 경우가 많음을 확인함 배경 LLM이 unseen tasks에 대해 문제를 잘 처리할 수 있는 zero-shot ability가 알려짐 그러나 단순히 Teacher model의 output을 모방하는 Imitation Learning 방식은 한계가 존재 따라서 여러 태..

<Multi-modal> [LLaVA-1.5] Improved Baselines with Visual Instruction Tuning

2023.10.07· Paper Review

최근(2023.10)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] LLaVA에서 fully-connected vision-language cross-modal connector를 사용한 LLaVA-1.5 공개. data efficient(1.2M public data) & power(SoTA on 11 benchmarks) 배경 최근에는 LLM 뿐만 아니라 LMM, 즉 Large Multimodal Models에 대한 관심도 뜨겁습니다. 여기서도 마찬가지로 전체 모델을 tuning 하지 않고도 성능을 끌어 올리는 기법 등에 대한 연구가 많이 이뤄지고 있죠. 그중..

<LM> DeBERTa: Decoding-enhanced BERT with Disentangled Attention

2023.09.15· Paper Review

과거(2020.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 캐글 프로젝트를 하면서 이 모델에 대해 공부를 한 번 하고 싶어서 빠르게 읽고 간단히 정리한 내용입니다! (버전 3가 올해에 나와 있어서 그것도 얼른 공부를 해야 될 것 같네요) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] disentangled attention mechanism과 enhanced mask decoder라는 새로운 기법을 적용. 기존 BERT 및 RoBERTa 모델의 단점을 개선한 새로운 architecture, DeBERTa를 제시. 배경 당시(2020년도)에는 self-attention을 기반으로 한 여러 모델들이 쏟아..

<Attention> LongNet: Scaling Transformers to 1,000,000,000 Tokens

2023.07.08· Paper Review

[Microsoft Research] dilated attention을 적용하여 computation complexity를 quadratic → linear 줄임. 엄청나게 긴 입력(1B token)을 처리할 수 있으면서도 성능을 잘 유지할 수 있는 모델 LONGNET을 제시. 배경 transformer 기반의 모델들이 좋은 성능을 보이는 것 이면에는, 엄청나게 많은 자원을 필요로 한다는 문제점이 존재하고 있습니다. self-attention 방식을 생각해보면 하나의 Key가 모든 Query, Value와 연산을 수행하게 되면서 quadratic한 시간 복잡도를 갖게 되기 때문이죠. (쉽게 표현하면 O(N^2)라고 할 수 있겠네요) 결국 모델이 처리할 수 있는 입력의 길이가 상당히 제한되고, 이것이 지금..

<LLM> [OSDL] Natural Language Commanding via Program Synthesis

2023.07.01· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] LLM으로 자연어를 이해해 Office Domain Specific Language(ODSL)으로 변환하여 office application(Power Point)을 쉽게 활용할 수 있도록 함. 이때 Semantic Interpreter는 Analysis-Retrieveal 프롬프트를 이용하여 자연어를 ODSL로 변환. 몇 달 전부터 사무용 어플리케이션에 LLM을 활용하는 서비스에 대한 언급이 이어지고 있었습니다. copilot이라는 이름으로 AI 기술을 운용하는 Microsoft도 자체적인 서비..

<LLM> [phi-1] Textbooks Are All You Need

2023.06.28· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] textbook 수준의 우수한 품질의 데이터로 fine-tuning한 모델 phi-1. 데이터의 양보다도 질이 중요하다는 것을 코드 생성 분야에서 입증한 케이스. 배경 사실 여러 거대 인공지능 모델들이 성장함에 따라 이를 활용하거나, 경량화하거나 하는 등의 다양한 연구가 이뤄지고 있지만, 한편으로는 데이터셋에 대한 연구도 활발히 진행중입니다. 물론 데이터셋의 품질을 가르는 기준이 굉장히 주관적으로 느껴질 수 있습니다만, LIMA와 같은 모델에서 입증한 것처럼 잘 curated된 데이터셋은 그 작고..

티스토리툴바