Greedy Search

Various Sequence To Sequence Architectures(3) : Beam Search

2023.04.28· Sequence Models/3주차

Beam search algorithm 주어진 input x에 대해 다음에 등장할 수 있는 예측값 하나만을 뽑았던 greedy search와 달리, Beam search algorithm은 해당 시점에 다음으로 등장할 확률이 가장 높은 것 B개를 뽑습니다. 이것은 일종의 hyper-parameter로 상황에 따라 다른 값을 부여할 수 있고, 이를 beam width라고 부릅니다. 맨 처음 골랐던 세 단어를 기준으로 또 세 개씩 뽑습니다. 각각의 확률을 구하는 방식은 완전히 동일하게 반복됩니다. 어떤 단어가 뽑혔을 경우, 이것을 포함한 것이 조건으로 들어가고, 이때 다음으로 등장할 확률이 가장 높은 B개를 추출하게 됩니다. 이를 문장이 끝날 때까지 반복하면 됩니다. 재밌는 것은 결국 한 개의 후보만 가지고..

Various Sequence To Sequence Architectures(2) : Picking the Most Likely Sentence

2023.04.28· Sequence Models/3주차

Machine translation as building a conditional language model 지난 시간에 공부한 machine translation이 이전에 배운 language model의 구조와 유사한 부분이 있다는 것을 시각적으로 확인할 수 있습니다. machine translation에서는 input x가 예측값 y hat과 동시에 입력으로 들어가지 않는 다는 점을 제외하면 구조가 유사합니다. 그리고 이러한 구조를 'contional language model'이라고 부릅니다. input x라는 조건이 주어졌을 때, 예측값 y hat을 확률에 기반하여 예측하기 때문이죠. Finding the most likely translation 하지만 결국 확률의 문제이기 때문에, 주어진 조..

티스토리툴바