Transformers(3) : Multi-Head Attention

어떤 질문에 대해 각 단어를 답변 후보로 생각하고 그 관계를 통해 score를 구한 것이 self-attention이었습니다.

이를 head라고 부르고, 이 과정을 여러 번 반복하여 중첩한 것이 multi-head attention입니다

여기에서는 8개의 head를 중첩한 것을 예로 들었는데 사실 그게 기본 구조여서 그렇습니다.

이를 해석하는 것은 이전의 attention에서의 질문이 what's happening here? 이었다면, when, who 등등 문장에 대해 주어질 수 있는 여러 개의 질문들로 볼 수 있습니다.

(물론 사람이 부여하는 의미일 뿐이겠지만요)

최종적으로 이렇게 구한 여러 개의 head를 concat하면 됩니다.

출처: Coursera, Sequence Models, DeepLearning.AI

Transforemrs(4) : Transformer Network (0)	2023.04.30
Transformers(2) : Self-Attention (0)	2023.04.30
Transformers(1) : Transforemr Network Intuition (0)	2023.04.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바