최신 Text Embedding 모델 기술 트렌드 및 아키텍처 분석 정리 (feat. NotebookLM)

분자 (Numerator): &nbsp; 쿼리($q$)와 정답 문서($p^+$) 사이의 유사도 점수($s$)를 기반으로 계산된 값입니다. 이 값이 클수록 손실(Loss)은 줄어듭니다.
분모 (Denominator): &nbsp; 정답 문서를 포함한 모든 후보 문서(정답 + 오답들) 와의 유사도 점수의 합입니다. 모델은 정답과의 유사도는 높이고($\uparrow$), 오답들과의 유사도는 낮추어($\downarrow$) 분수 전체의 값을 1에 가깝게(즉, 로그를 취했을 때 0에 가깝게) 만들려고 노력합니다.
$\tau$ (Temperature): &nbsp; 분포의 평활도(smoothness)를 조절하는 하이퍼파라미터입니다. 일반적으로 0.01 같은 작은 값을 사용하여 모델이 어려운 예제(hard negatives)에 더 집중하도록 유도합니다.

2025. 12. 21. 14:26· Paper Review

1. Embedding 모델의 역할과 중요성