chanmuzi

<LLM, RNN> Transformers are Multi-State RNNs (2024.01)

2024.01.20· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [FAIR, AI at Meta, The Hebrew University of Jerusalem] - decoder-only transformer가 infinite multi-state RNNs으로 개념화 될 수 있다는 것을 입증 - 나아가 사전학습된 transformers를 finite multi-state RNNs으로 전환 - 이때 사용되는 새로운 compression policy, TOVA를 제시 1. Introduction transformer의 아키텍쳐가 자연어처리 분야에서 핵심으로 자리잡게 되었지만, 이것과 기존 RNN과의 관계에 대한..

<Attention> [CALM] LLM Augmented LLMs: Expanding Capabilities through Composition (2024.01)

2024.01.18· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Research, Google DeepMind] - 다른 모델 간의 cross-attention을 통해 새로운 capabilities를 획득하게 하는 기법, CALM - Composition to Augment Language Models - 기존 LLM은 're-using'하면서 새로운 few additional parameters와 data를 사용 - 다양한 도메인과 환경에 적용 가능하다는 특징(장점)을 보유 1. Introduction LLM은 여러 태스크 중에서도 이전과 달리 commonsense 또는 factual reas..

<LLM> [MoE] Mixtral of Experts (2024.01)

2024.01.16· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Mistral.AI] - Mistral 7B 아키텍쳐에서 각 layer를 8개의 feedforward blocks (experts)로 구성한 Mixtral 8x7B 모델 (32K) - 각 layer에서 router network가 current state를 처리하기 위한 두 개의 experts를 선정하고 두 결과물을 취합 - 각 토큰은 47B 파라미터에 대해 접근할 수 있지만 추론 단계에 활용되는 것은 13B의 activa parameters 뿐임 - instruction을 따르도록 tuning된 Mixtral 8x7B - Instruct 모델..

<Agent, VLM> CogAgent: A Visual Language Model for GUI Agents (2023.12)

2024.01.11· 딥러닝

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Tsinghua University, Zhipu AI] - GUI에 대한 이해가 뛰어난 18B 사이즈의 Visual Language Model (VLM)을 도입 - low-resolution & high-resolution image encoder를 동시에 사용하고 cross attention - VQA & GUI 벤치마크 둘 다에서 뛰어난 성능이 확인됨 1. Introduction 최근 LLM을 바탕으로 한 agent의 성장세가 가파른 상황입니다. 무려 15만 개의 star를 받은 AutoGPT를 시작으로 LLM의 능력을 다양한 applica..

<NLP> [Transformer] Attention Is All You Need (2017.06)

2024.01.10· Paper Review

NLP 분야의 (지금은 분야를 막론하고 그렇지만) 전설적인 논문인 Attention Is All You Need를 읽고 간단히 정리해보았습니다. 100% 이해하는 것이 쉽지 않기도 하고.. 자세히 정리하다가는 하루가 꼬박 날아갈 가능성이 있어 핵심적인 개념들 위주로 정리하며 복습해볼 생각입니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Brain, Google Research, University of Toronto] - 오직 attention mechanism만으로 구성된 simple network architecture, Transformer를 제안 - 영어를 다른 언어로 번역하는 태스크에서 뛰어난 일반화 성능을 보임 1..

[밑바닥부터 시작하는 딥러닝] Softmax 함수, 클래스 구현하기 (미분 수식, + with Cross Entropy)

2024.01.09· 딥러닝

주로 분류를 위해 사용되는 함수인 softmax는 딥러닝에서 가장 많이 쓰이는 녀석 중 하나일 겁니다. 이번에 '밑바닥부터 시작하는 딥러닝 1,2권'을 구현하면서 정말 여러 번 코드를 치면서 구현했었는데, 코드의 원리가 생각보다는 이해하기 쉽지 않았던 것 같습니다 🤔 함수 자체는 엄청 간단한데 의외로 역전파 원리는 그렇지 않습니다. 오늘은 이를 코드와 함께 꼼꼼히 살펴보면서 어떻게 구현이 되어있는지, 특히 미분이 왜 이렇게 되는 건지 알아보겠습니다!! 1. softmax 함수 정의하기 우선 총 n개의 클래스가 존재한다는 상황을 가정하겠습니다. 그리고 앞으로 이 함수의 입력은 벡터 a, 출력은 벡터 y, 정답은 벡터 t라고 하겠습니다. 따라서 각 벡터는 n개의 원소로 구성되어 있으므로 a = [a1, a2..

전체 글

티스토리툴바