Speech recognition problem
sequence to sequence 모델의 대표적인 적용 사례 중 하나가 speech recognition입니다.
audio clip이라는 input을 받아 transcript라는 output을 내는 구조입니다.
최근에 사용하는 학습 데이터셋의 크기는 100,000만 시간 혹은 그 이상에 해당하는 audio-transcript 쌍이라고 합니다.
Attention model for speech recognition
지난 시간에 배웠던 attention model이 적용되는 구조는 완전히 동일합니다.
CTC cost for speech recognition
하지만 위의 도식과는 다르게 실제로는 입력과 출력의 개수가 동일하지 않을 가능성이 매우 높습니다.
이때는 동일한 글자를 죽 늘어서 쓰거나 문자 간 구분을 해줄 수 있는 공백을 추가할 수 있습니다.
이런 방식을 CTC라고 부릅니다.
출처: Coursera, Sequence Models, DeepLearning.AI