speech recognition

What is trigger word detection 예시와 같은 다양한 제품들은 사용자의 발화를 인식해서 trigger word가 들렸을 때 활성화되는 방식의 서비스를 제공하고 있습니다. (feat. 시도 때도 없이 켜지는 siri) Trigger word detection algorithm 이것이 가능하게 하는 학습 방식은 생각보다 꽤나 직관적입니다. 일련의 audio clip을 주고, trigger word가 발화되는 지점은 1로 label링 하고, 나머지는 0을 부여하면 되는 것이죠. 그럼에도 불구하고 아직까지(강의가 촬영되는 시점) 정설로 자리잡은 알고리즘이 존재하지는 않는다고 하네요. 출처: Coursera, Sequence Models, DeepLearning.AI
Speech recognition problem sequence to sequence 모델의 대표적인 적용 사례 중 하나가 speech recognition입니다. audio clip이라는 input을 받아 transcript라는 output을 내는 구조입니다. 최근에 사용하는 학습 데이터셋의 크기는 100,000만 시간 혹은 그 이상에 해당하는 audio-transcript 쌍이라고 합니다. Attention model for speech recognition 지난 시간에 배웠던 attention model이 적용되는 구조는 완전히 동일합니다. CTC cost for speech recognition 하지만 위의 도식과는 다르게 실제로는 입력과 출력의 개수가 동일하지 않을 가능성이 매우 높습니다. 이때..
chanmuzi
'speech recognition' 태그의 글 목록