Length normalization Beam search를 개선하는 방법 중 하나는 length normalization입니다. 지난 시간에 배웠던 것처럼 beam search는 각 단계에서 확률이 가장 높은 것들을 뽑는 방식입니다. 기존의 결과들에 대한 확률을 전부 곱하는 구조이므로, 여기에 log를 취하면 합연산으로 바꿀 수 있습니다. 또한 합연산으로 표현된 log 확률을 예측하고자 하는 문장의 길이로 나눠주어 보다 soft한 예측을 할 수 있습니다. 이때 사용되는 하이퍼 파라미터 alpha는 지수가 되므로 0이면 정규화가 이뤄지지 않음을 의미하게 됩니다. Beam search discussion beam width를 몇으로 설정해야 하는가 역시 하이퍼 파라미터라고 볼 수 있습니다. 주어진 inpu..