Attention Model

Attention model 기존과 크게 다른 것은 없고 attention model에 필요한 context를 어떻게 계산하는지 식으로 설명하고 있습니다. attention은 말 그대로 집중이며, 전체 문장을 구성하는 요소에 따라 다른 비중을 두는 방식이라고 이해할 수 있습니다. 따라서 attention 가중치를 나타내는 alpha의 총합은 1로 고정됩니다. 그리고 이 가중치와 실제 값을 곱한 것들의 누적합이 각 스텝의 context가 됩니다. 이를 지금까지의 state와 함께 입력으로 삼아 새로운 y hat을 만든다고 볼 수 있습니다. Computing attention a
The problem of long sequences 우리가 지금까지 다룬 모델들의 구조를 살펴보면 encoder / decoder가 결합된 것으로 이해할 수 있습니다. 즉, 도식의 초록색 부분은 입력을 이해하는 encoder, 그리고 보라색 부분은 이해한 것을 바탕으로 생성을 담당하는 decoder가 됩니다. 하지만 이런 구조는 문장의 길이에 비례하여 성능이 급감하는 경향을 보여줍니다. 길이가 길어지더라도 초록색 그래프처럼 준수한 성능이 유지될 수 있도록 하는 것이 목표입니다. Attention model intuition 문맥을 반영하는 새로운 RNN의 형태를 떠올릴 수 있습니다. 지금까지의 RNN 모델은 이전까지의 입력, 생성 정보만을 condition으로 사용했습니다. 하지만 실제 문장이라는 것은..
chanmuzi
'Attention Model' 태그의 글 목록