'rnn' 태그의 글 목록

<LLM, RNN> Transformers are Multi-State RNNs (2024.01)

2024.01.20· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [FAIR, AI at Meta, The Hebrew University of Jerusalem] - decoder-only transformer가 infinite multi-state RNNs으로 개념화 될 수 있다는 것을 입증 - 나아가 사전학습된 transformers를 finite multi-state RNNs으로 전환 - 이때 사용되는 새로운 compression policy, TOVA를 제시 1. Introduction transformer의 아키텍쳐가 자연어처리 분야에서 핵심으로 자리잡게 되었지만, 이것과 기존 RNN과의 관계에 대한..

<SSM> Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023.12)

2023.12.12· Paper Review

관심있는 NLP 논문을 읽어보고 ChatGPT를 이용해 정리했습니다. (요약을 제외한 모든 내용은 ChatGPT가 요약한 내용입니다 😁) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Carnegie Mellon University, Princeton University] - selective SSMs을 simplified end-to-end neural network architecture로 통합함 - attention 또는 심지어 MLP block을 포함하지 않음 1. Introduction 기초 모델(FMs)의 개요 FMs는 대규모 데이터로 사전 학습된 후 하위 작업에 적용되는 대형 모델로, 현대 머신러닝에서 효과적인 패러다임으로 부상...

<Attention> Retentive Network: A Successor to Transformer for Large Language Models

2023.08.07· Paper Review

최근(2023.07)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success LLM의 기반이 되는 Retentive Network (RETNET)을 제안. scaling results, parallel training, low-cost deployment, efficient inference를 달성했다고 주장. 배경 트랜스포머 기반의 모델들은 그 뛰어난 성능 덕분에 많은 분야를 집어 삼키고 있지만, 지나치게 많이 요구되는 메모리 사용량과 연산량으로 인해 사용에 제약이 많습니다. 따라서 빠른 속도로 연산이 가능하면서도 준수한 성능을 낼 수 있는 모델에 대한 연구는 다방면으로 이뤄지고 있습니다. 모델의 성능과 관..

Recurrent Neural Networks(8) : Vanishing Gradients with RNNs

2023.04.14· Sequence Models/1주차

Vanishing gradients with RNNs RNN은 Vanishing gradients, Exploding gradients라는 대표적인 문제점을 안고 있습니다. sequence의 길이가 길어지면 길어질수록 초반부의 정보를 후반부까지 유지하기 힘들다는 것이 기본적인 문제점입니다. 위 예시에서 cat, cats라는 주어들을 보면 수일치를 위해 동사가 was, were로 달라져야 합니다. 만약 두 단어 사이의 sequence의 길이가 엄청나게 길다면 모델의 입장에서 모든 정보를 포함한 타당한 추론을 하기 어려워집니다. 수학적으로는 층(layer)이 여러 개 쌓일수록 기울기가 폭발적으로 증가하거나, 역전파(back propagation) 시 0에 수렴하는 문제점이 발생하곤 합니다. 기울기가 폭발적으..

Recurrent Neural Networks(7) : Sampling Novel Sequences

2023.04.14· Sequence Models/1주차

Sampling a sequence from a trained RNN 이전 강의에서 배운 것처럼 RNN 모델이 학습을 마치고 나면 sampling을 해봅니다. a는 0으로 초기화된 상태에서 시작하면, 각 토큰들을 기준으로 다음에 등장할 확률이 가장 높은 토큰 하나를 예측하게 됩니다. 이때 토큰이 등장하지 않게 하려면 resampling 하게 하는 등의 조치를 취할 수 있습니다. Character-level language model 지금까지 살펴본 것은 단어 단위의 RNN이었지만, 이 토큰을 글자 단위로 만들 수도 있습니다. 이때는 소문자, 대문자, 공백, 특수 기호 등등 다양한 문자가 vocab에 포함될 수 있겠죠. 하지만 모든 글자 단위로 연산을 하게 되면 비용이 비싸다는 단점이 있습니다. Seque..

Recurrent Neural Networks(5) : Different Types of RNNs

2023.04.14· Sequence Models/1주차

Examples of sequence data 지난 시간까지 공부한 RNN은 Tx = Ty인, 즉 입력과 출력의 개수가 동일한 경우였습니다. 하지만 실제로 RNN은 그렇지 않은 경우가 많습니다(더 많겠죠 정확히는). 예를 들어 기계 번역의 경우, 같은 의미를 지닌 두 문장이 언어에 따라 다른 길이를 가질 수 있습니다. Examples of RNN architectures input과 output의 길이(개수)에 따라 RNN의 architecture를 위와 같이 구분할 수 있습니다. Summary of RNN types One to one : 사실 이때는 굳이 RNN이라고 할 필요도 없겠죠 ㅎㅎ One to many : 작곡과 같은 예시를 드셨는데 잘 와닿는 예는 아니었습니다. Many to one : 영..

티스토리툴바