Various Sequence To Sequence Architectures(2) : Picking the Most Likely Sentence

2023. 4. 28. 15:28· Sequence Models/3주차

Machine translation as building a conditional language model

지난 시간에 공부한 machine translation이 이전에 배운 language model의 구조와 유사한 부분이 있다는 것을 시각적으로 확인할 수 있습니다.

machine translation에서는 input x가 예측값 y hat과 동시에 입력으로 들어가지 않는 다는 점을 제외하면 구조가 유사합니다.

 

그리고 이러한 구조를 'contional language model'이라고 부릅니다.

input x라는 조건이 주어졌을 때, 예측값 y hat을 확률에 기반하여 예측하기 때문이죠.

 

 

Finding the most likely translation

하지만 결국 확률의 문제이기 때문에, 주어진 조건 하나로 여러 개의 정답 후보가 있을 수 있습니다.

우리는 그중에서 정답이 될 확률이 가장 높은 것 하나를 골라야 합니다.

 

 

Why not a greedy search?

그렇다면 매 시점에서 다음으로 등장할 확률이 가장 높은 것을 고르는 greedy search를 적용하면 안 되는 이유는 무엇일까요?

번역 예시 두 문장을 살펴보면 위의 문장이 더 정확히 잘 번역된 문장입니다.

하지만 영어 문장의 특성상, 'Jane is'라는 표현이 주어지면(condition), 'going'이 등장할 확률이 'visiting'이 등장할 확률보다 높을 것입니다.

따라서 다음에 등장할 확률이 가장 높은 것만 고르게 된다면 결국 맥락과 무관하거나 상대적으로 부정확한 번역이 될 가능성이 높은 것입니다.

이러한 문제점을 해결하기 위해 등장한 탐색 방식 중 하나가 Beam Search 입니다.

 

 

 

출처: Coursera, Sequence Models, DeepLearning.AI

 

'Sequence Models > 3주차' 카테고리의 다른 글

Various Sequence To Sequence Architectures(6) : Blue Score (Optional)  (0) 2023.04.28
Various Sequence To Sequence Architectures(5) : Error Analysis in Beam Search  (0) 2023.04.28
Various Sequence To Sequence Architectures(4) : Refinements to Beam Search  (0) 2023.04.28
Various Sequence To Sequence Architectures(3) : Beam Search  (0) 2023.04.28
Various Sequence To Sequence Architectures(1) : Basic Models  (0) 2023.04.28
'Sequence Models/3주차' 카테고리의 다른 글
  • Various Sequence To Sequence Architectures(5) : Error Analysis in Beam Search
  • Various Sequence To Sequence Architectures(4) : Refinements to Beam Search
  • Various Sequence To Sequence Architectures(3) : Beam Search
  • Various Sequence To Sequence Architectures(1) : Basic Models
chanmuzi
chanmuzi
chanmuzichanmuzi 님의 블로그입니다.
chanmuzi
chanmuzi
chanmuzi
전체
오늘
어제
  • 분류 전체보기 (509)
    • 후기 (11)
    • 취업 (5)
      • 부트캠프 (11)
      • 채용 (13)
    • Paper Review (182)
    • 딥러닝 (19)
    • 알고리즘 (78)
      • BOJ (50)
      • 프로그래머스 (28)
    • Sequence Models (34)
      • 1주차 (11)
      • 2주차 (9)
      • 3주차 (10)
      • 4주차 (4)
    • Algorithms, Part 1 (30)
      • 1주차 (11)
      • 2주차 (12)
      • 3주차 (7)
    • Convolutional Neural Networ.. (19)
      • 3주차 (11)
      • 4주차 (8)
    • CS (3)
    • Improving Deep Neural Netwo.. (15)
      • 1주차 (5)
      • 2주차 (5)
      • 3주차 (5)
    • Multivariate Calculus (15)
      • 1주차 (3)
      • 2주차 (3)
      • 3주차 (2)
      • 4주차 (3)
      • 5주차 (2)
      • 6주차 (2)
    • Linear Algebra (16)
      • 1주차 (2)
      • 2주차 (2)
      • 3주차 (3)
      • 4주차 (4)
      • 5주차 (5)
    • 프로그래머를 위한 선형대수 (14)
      • 0장 (0)
      • 1장 (0)
      • 2장 (0)
      • 3장 (4)
      • 4장 (6)
      • 5장 (4)
    • AI For Everyone (14)
      • 1주차 (5)
      • 2주차 (3)
      • 3주차 (3)
      • 4주차 (3)
    • PCA (11)
      • 1주차 (3)
      • 2주차 (3)
      • 3주차 (2)
      • 4주차 (3)
    • Neural Networks and Deep Le.. (14)
      • 1주차 (1)
      • 2주차 (5)
      • 3주차 (4)
      • 4주차 (4)

블로그 메뉴

  • 홈
  • 태그
  • 방명록
  • 글쓰기
  • 설정

공지사항

  • NLP 연구자를 꿈꾸는 chanmuzi 입니다 🔥🔥

인기 글

태그

  • Multi-Modal
  • 파이썬
  • 취준생
  • 비전공자
  • kaist
  • algorithms
  • paper review
  • Andrew ng
  • BOJ
  • 알고리즘
  • AI
  • LK Lab
  • Cot
  • 프로그래머를 위한 선형대수
  • 프로그래머스
  • GPT-4
  • Rag
  • CNN
  • Sequence Models
  • LLM
  • transformer
  • 백준
  • 개발자
  • deep learning
  • coursera
  • Programmers
  • llama
  • NLP
  • Multivariate Calculus
  • Python

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.2
chanmuzi
Various Sequence To Sequence Architectures(2) : Picking the Most Likely Sentence
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.