'분류 전체보기' 카테고리의 글 목록 (36 Page)

<Tool> Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

2023.05.01· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ LLM(GPT-4)을 주축으로 vision models, web search engines, Python functions 등 다양한 도구들로 구성된 통합 시스템 구축 배경 최근 LLM이 엄청난 퍼포먼스를 보이는 것은 사실이지만 명확한 한계를 보이는 것도 사실이다. 대표적으로 ‘최신 정보를 반영하지 못한다는 점’, ‘외부 도구를 이용할 수 없다는 점(오직 챗봇으로만 이용 가능)’, ‘수학적 추론 능력이 부족하다는 점’ 등을 예로 들 수 있다. 이러한 한계를 극복하기 위해서 LLM을 통합 시스템을 구축하는 데 사용하는 방법론을 제안한다. LLM이 문제를 ..

Transforemrs(4) : Transformer Network

2023.04.30· Sequence Models/4주차

Transformer Details self-attention을 여러 번 중첩한 multi-head attention은 encoder / decoder 둘 다에서 쓰입니다. encoder부터 살펴보면, 주어진 입력 문장에 대해 multi-head attention을 수행하고 이를 feed forward합니다. 이 과정을 n번 반복합니다. (논문에서는 n=6으로 세팅했습니다) 즉, attention head를 8번 중첩해서 concat하고 forward하는 것을 6번 반복합니다. 이를 통해 입력 문장에 대해 각 단어(token) 간의 관계를 바탕으로 이해를 마칩니다. decoder는 문장의 시작을 알리는 토큰으로 시작합니다. 이를 시작으로 multi-head attention을 적용하여 구한 것을 다음 m..

Transformers(3) : Multi-Head Attention

2023.04.30· Sequence Models/4주차

Multi-Head Attention 어떤 질문에 대해 각 단어를 답변 후보로 생각하고 그 관계를 통해 score를 구한 것이 self-attention이었습니다. 이를 head라고 부르고, 이 과정을 여러 번 반복하여 중첩한 것이 multi-head attention입니다 여기에서는 8개의 head를 중첩한 것을 예로 들었는데 사실 그게 기본 구조여서 그렇습니다. 이를 해석하는 것은 이전의 attention에서의 질문이 what's happening here? 이었다면, when, who 등등 문장에 대해 주어질 수 있는 여러 개의 질문들로 볼 수 있습니다. (물론 사람이 부여하는 의미일 뿐이겠지만요) 최종적으로 이렇게 구한 여러 개의 head를 concat하면 됩니다. 출처: Coursera, Seq..

Transformers(2) : Self-Attention

2023.04.30· Sequence Models/4주차

Self-Attention Intuition RNN에서 사용했던 attention과 다른 attention을 도입합니다. 여기서 사용하는 self-attention은 각 단어에 대해 다른 단어와의 관계를 Q,K,V에 대한 식으로 수치화합니다. Self-Attention 결론적으로 말하자면 Q와 K를 내적한 뒤 차원의 수로 normalize하고, 여기에 V를 곱하여 softmax를 취한 것이 attention score가 됩니다. 이때 Q, K, V는 각 입력에 대해 각각의 가중치를 가지게 됩니다. 이 수식은 Q가 일종의 질문을 의미하게 되고, 이 질문에 대한 답변 후보가 K, 그리고 이 답변이 어떤 식으로 표현되어야 하는지를 V로 정한다고 합니다. 사실 굉장히 추상적이라서 와닿지는 않아서 논문을 직접 읽..

Transformers(1) : Transforemr Network Intuition

2023.04.30· Sequence Models/4주차

Transformers Motivation 자연어처리 분야의 문제를 해결하기 위해 등장한 Transformer 아키텍쳐는 현재까지 인공지능 분야 전반에 엄청나게 큰 영향을 주었습니다. RNN, GRU, LSTM 등 다양한 sequence model들이 등장했지만, sequence의 길이가 증가하면서 발생하는 문제점을 여전히 해결하지 못했죠. Transformers Intuition 이러한 문제점을 해결하기 위해 등장한 Transformer는 attention 구조와 CNN 구조를 결합한 형태를 띠고 있습니다. 두 그림 중에서 우측처럼 한꺼번에 모든 입력 간의 관계를 계산하고 representation을 구하는 것이죠. 이때 사용되는 attention이 self-attention인데 sequence의 길이..

<Long Sequence> Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System

2023.04.28· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 현재 LLM들이 가지는 입력의 길이 제한 문제를 엄청나게 개선하는 방법에 관한 논문 배경 최근 ChatGPT의 등장 이후로 LLM에 대한 관심이 뜨겁고 실제로 그 성능이 어마무시하게 좋다는 것은 잘 알려져 있다. 그럼에도 불구하고 이러한 LLM들은 transformer 기반의 architecture를 사용하기 때문에, ‘입력의 길이가 제한’되고 ‘이 길이를 늘리는 데 드는 비용이 엄청나게 크다’는 문제점이 있었다. 대표적인 예로 사람들이 챗봇을 통해 처리하기 원하는 것 중 하나가 문서 요약인데, 길이가 조금만 길어도 이를 잘 처리하지 못하는 모습을 쉽게..

티스토리툴바