전체 글

· Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 현재 LLM들이 가지는 입력의 길이 제한 문제를 엄청나게 개선하는 방법에 관한 논문 배경 최근 ChatGPT의 등장 이후로 LLM에 대한 관심이 뜨겁고 실제로 그 성능이 어마무시하게 좋다는 것은 잘 알려져 있다. 그럼에도 불구하고 이러한 LLM들은 transformer 기반의 architecture를 사용하기 때문에, ‘입력의 길이가 제한’되고 ‘이 길이를 늘리는 데 드는 비용이 엄청나게 크다’는 문제점이 있었다. 대표적인 예로 사람들이 챗봇을 통해 처리하기 원하는 것 중 하나가 문서 요약인데, 길이가 조금만 길어도 이를 잘 처리하지 못하는 모습을 쉽게..
What is trigger word detection 예시와 같은 다양한 제품들은 사용자의 발화를 인식해서 trigger word가 들렸을 때 활성화되는 방식의 서비스를 제공하고 있습니다. (feat. 시도 때도 없이 켜지는 siri) Trigger word detection algorithm 이것이 가능하게 하는 학습 방식은 생각보다 꽤나 직관적입니다. 일련의 audio clip을 주고, trigger word가 발화되는 지점은 1로 label링 하고, 나머지는 0을 부여하면 되는 것이죠. 그럼에도 불구하고 아직까지(강의가 촬영되는 시점) 정설로 자리잡은 알고리즘이 존재하지는 않는다고 하네요. 출처: Coursera, Sequence Models, DeepLearning.AI
Speech recognition problem sequence to sequence 모델의 대표적인 적용 사례 중 하나가 speech recognition입니다. audio clip이라는 input을 받아 transcript라는 output을 내는 구조입니다. 최근에 사용하는 학습 데이터셋의 크기는 100,000만 시간 혹은 그 이상에 해당하는 audio-transcript 쌍이라고 합니다. Attention model for speech recognition 지난 시간에 배웠던 attention model이 적용되는 구조는 완전히 동일합니다. CTC cost for speech recognition 하지만 위의 도식과는 다르게 실제로는 입력과 출력의 개수가 동일하지 않을 가능성이 매우 높습니다. 이때..
Attention model 기존과 크게 다른 것은 없고 attention model에 필요한 context를 어떻게 계산하는지 식으로 설명하고 있습니다. attention은 말 그대로 집중이며, 전체 문장을 구성하는 요소에 따라 다른 비중을 두는 방식이라고 이해할 수 있습니다. 따라서 attention 가중치를 나타내는 alpha의 총합은 1로 고정됩니다. 그리고 이 가중치와 실제 값을 곱한 것들의 누적합이 각 스텝의 context가 됩니다. 이를 지금까지의 state와 함께 입력으로 삼아 새로운 y hat을 만든다고 볼 수 있습니다. Computing attention a
The problem of long sequences 우리가 지금까지 다룬 모델들의 구조를 살펴보면 encoder / decoder가 결합된 것으로 이해할 수 있습니다. 즉, 도식의 초록색 부분은 입력을 이해하는 encoder, 그리고 보라색 부분은 이해한 것을 바탕으로 생성을 담당하는 decoder가 됩니다. 하지만 이런 구조는 문장의 길이에 비례하여 성능이 급감하는 경향을 보여줍니다. 길이가 길어지더라도 초록색 그래프처럼 준수한 성능이 유지될 수 있도록 하는 것이 목표입니다. Attention model intuition 문맥을 반영하는 새로운 RNN의 형태를 떠올릴 수 있습니다. 지금까지의 RNN 모델은 이전까지의 입력, 생성 정보만을 condition으로 사용했습니다. 하지만 실제 문장이라는 것은..
Evaluating machine translation 이전까지는 바람직한 번역 결과, 정답이 딱 한 개 있을 때의 상황이었습니다. 그렇다면 바람직한 번역 결과가 두 개 이상 존재하는 경우엔 평가를 어떻게 해야 할까요? 이때 사용할 수 있는 것이 Bilingual Evaluation Understdy(BLEU)입니다. 원래 사용되던 precision 계산식은 MT의 결과 각 단어가 reference에 포함되어 있는지를 기준으로 삼습니다. 그래서 총 7개의 예측 단어가 모두 reference에 포함되기 때문에 7/7이었죠. 이를 개선한 것은 7개 중에서 실제로 포함된 것을 reference별로 비교하여 최대를 고릅니다. the는 각 reference에 2개, 1개씩 들어가므로 개수가 더 많은 2/7가 됩니..
chanmuzi
chanmuzi