'분류 전체보기' 카테고리의 글 목록 (28 Page)

<Attention> LongNet: Scaling Transformers to 1,000,000,000 Tokens

2023.07.08· Paper Review

[Microsoft Research] dilated attention을 적용하여 computation complexity를 quadratic → linear 줄임. 엄청나게 긴 입력(1B token)을 처리할 수 있으면서도 성능을 잘 유지할 수 있는 모델 LONGNET을 제시. 배경 transformer 기반의 모델들이 좋은 성능을 보이는 것 이면에는, 엄청나게 많은 자원을 필요로 한다는 문제점이 존재하고 있습니다. self-attention 방식을 생각해보면 하나의 Key가 모든 Query, Value와 연산을 수행하게 되면서 quadratic한 시간 복잡도를 갖게 되기 때문이죠. (쉽게 표현하면 O(N^2)라고 할 수 있겠네요) 결국 모델이 처리할 수 있는 입력의 길이가 상당히 제한되고, 이것이 지금..

<Benchmark> [AttrPrompt] Large Language Model as Attributed Training DataGenerator: A Tale of Diversity and Bias

2023.07.07· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success 다양한 특성을 반영할 수 있는 프롬프트를 이용해 LLM으로 NLP task를 위한 데이터 생성하기 배경 LLM이 활용되는 여러 분야 중 하나는 데이터 생성(generator)입니다. 문장 단위의 텍스트를 생성하는 능력이 워낙 탁월하고 그 품질이 사실상 보장된 것이기 때문에 적은 비용으로 고품질 데이터를 생성할 수 있음이 알려졌습니다. 그러나 기존의 연구들은 단순히 class-conditional prompt에 의존하고 있을 뿐이라고 지적합니다. 이에 의해 생성되는 데이터의 다양성이 보장되지도 않고 텍스트를 생성하는 LLM의 편향을 그..

<Optimizer> Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

2023.07.06· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Second-order Clipped Stochastic Optimization, Sophia. diagonal Hessian을 이용하여 Adam보다 2배 이상 빠른 optimizer. 현재 딥러닝 분야에서 가장 널리 쓰이는 optimizer는 Adam family입니다. 더 큰 사이즈의 모델들이 더 좋은 성능을 보인다는 scaling law에 따라 요구되는 연산량은 점점 증가하는 추세이고, 본 논문과 같은 연구는 이를 최소화하기 위한 노력의 일환으로 볼 수 있습니다. 오늘은 Sophia라는 optimizer의 특징을 간단히 정리해보..

<Distillation> GKD: Generalized Knowledge Distillation for Auto-regressive Sequence Models

2023.07.05· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google DeepMind] Generalized Knowledge Distillation(GKD)을 통해 기존 distillation이 마주한 한계를 극복. summarization, machine translation, arithmetic reasoning task로 검증 LLM이 가지는 능력을 사이즈가 작은 모델도 지닐 수 있도록 확률 분포 자체를 모방하듯이 학습하는 방식을 Knowledge Distillation(KD)이라고 부릅니다. 그러나 이 방식이 완벽한 것은 아니어서, ‘학습 시 배운 분포와 실제 생성하는 outpu..

<LLM> [OSDL] Natural Language Commanding via Program Synthesis

2023.07.01· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] LLM으로 자연어를 이해해 Office Domain Specific Language(ODSL)으로 변환하여 office application(Power Point)을 쉽게 활용할 수 있도록 함. 이때 Semantic Interpreter는 Analysis-Retrieveal 프롬프트를 이용하여 자연어를 ODSL로 변환. 몇 달 전부터 사무용 어플리케이션에 LLM을 활용하는 서비스에 대한 언급이 이어지고 있었습니다. copilot이라는 이름으로 AI 기술을 운용하는 Microsoft도 자체적인 서비..

<LLM> [phi-1] Textbooks Are All You Need

2023.06.28· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] textbook 수준의 우수한 품질의 데이터로 fine-tuning한 모델 phi-1. 데이터의 양보다도 질이 중요하다는 것을 코드 생성 분야에서 입증한 케이스. 배경 사실 여러 거대 인공지능 모델들이 성장함에 따라 이를 활용하거나, 경량화하거나 하는 등의 다양한 연구가 이뤄지고 있지만, 한편으로는 데이터셋에 대한 연구도 활발히 진행중입니다. 물론 데이터셋의 품질을 가르는 기준이 굉장히 주관적으로 느껴질 수 있습니다만, LIMA와 같은 모델에서 입증한 것처럼 잘 curated된 데이터셋은 그 작고..

티스토리툴바