GRU and LSTM GRU와 LSTM의 차이를 비교하고 있습니다. GRU에서 update, reference 두 개의 gate를 사용한 것과 달리, LSTM은 update, forget, output 세 개의 gate를 사용합니다. 재밌는 특징은 세 개의 gate에 들어가는 입력이 a , x로 동일하다는 것이죠. 물론 가중치와 편향은 gate마다 다릅니다. 또한 GRU에서는 c가 RNN의 a와 동일한 것을 의미했지만, LSTM에서는 c와 a가구분되어 사용되는 것을 알 수 있습니다. 이는 두 개의 항이 다음 층으로 각각 전달되기 때문입니다. LSTM in pictures peephole connection : c의 각 원소는 게이트 내의 각 요소에 순서대로 영향을 줍니다. 예를 들어 c의 첫 번째 요소..
RNN unit 기존 RNN의 구조를 시각화하면 위와 같습니다. 이전 층의 a과 현재 층의 입력 x에 가중치를 곱하고 편향을 더한 것에 활성화 함수를 적용한 것이 a가 됩니다. GRU (simplified) 마찬가지로 GRU의 구조를 시각화한 것은 위와 같습니다. GRU에서는 cell의 개념을 사용하고 있기 때문에 RNN의 a 기호 대신 c를 사용합니다. 이전 층의 결과물 c과 현재 층의 입력 x 둘을 계산한 것이 GRU에서는 tilda c와 gamma u가 됩니다. 여기서 u는 update의 u라고 생각해도 좋습니다. tilda c는 tan h를, gamma u는 sigmoid를 활성화 함수로 사용합니다. 이제 둘을 곱하여 이전 층의 cell을 기억할지 말지 결정합니다. 예를 들어 gamma = 0인 ..