transformers

Self-Attention Intuition RNN에서 사용했던 attention과 다른 attention을 도입합니다. 여기서 사용하는 self-attention은 각 단어에 대해 다른 단어와의 관계를 Q,K,V에 대한 식으로 수치화합니다. Self-Attention 결론적으로 말하자면 Q와 K를 내적한 뒤 차원의 수로 normalize하고, 여기에 V를 곱하여 softmax를 취한 것이 attention score가 됩니다. 이때 Q, K, V는 각 입력에 대해 각각의 가중치를 가지게 됩니다. 이 수식은 Q가 일종의 질문을 의미하게 되고, 이 질문에 대한 답변 후보가 K, 그리고 이 답변이 어떤 식으로 표현되어야 하는지를 V로 정한다고 합니다. 사실 굉장히 추상적이라서 와닿지는 않아서 논문을 직접 읽..
Transformers Motivation 자연어처리 분야의 문제를 해결하기 위해 등장한 Transformer 아키텍쳐는 현재까지 인공지능 분야 전반에 엄청나게 큰 영향을 주었습니다. RNN, GRU, LSTM 등 다양한 sequence model들이 등장했지만, sequence의 길이가 증가하면서 발생하는 문제점을 여전히 해결하지 못했죠. Transformers Intuition 이러한 문제점을 해결하기 위해 등장한 Transformer는 attention 구조와 CNN 구조를 결합한 형태를 띠고 있습니다. 두 그림 중에서 우측처럼 한꺼번에 모든 입력 간의 관계를 계산하고 representation을 구하는 것이죠. 이때 사용되는 attention이 self-attention인데 sequence의 길이..
chanmuzi
'transformers' 태그의 글 목록 (2 Page)