본 레포트는 최근 자연어 처리(NLP)와 정보 검색(IR) 분야에서 핵심적인 역할을 하는 Text Embedding 모델의 발전 흐름을 다룹니다.
특히 약지도 학습(Weakly-Supervised Learning), 다단계 대조 학습(Multi-stage Contrastive Learning), 하이브리드 검색(Hybrid Retrieval), 그리고 효율적인 표현 학습(Representation Learning) 기술을 중심으로 최신 모델들의 아키텍처와 방법론을 분석했습니다.
1. Embedding 모델의 역할과 중요성
Embedding 모델은 텍스트 데이터를 저차원의 잠재 공간(Latent Space)으로 인코딩하여 의미론적(Semantic) 유사성을 계산할 수 있게 하는 DNN 애플리케이션의 핵심 형태입니다.
사전 학습된 언어 모델(Pre-trained Language Models)의 등장으로 텍스트 임베딩의 품질이 비약적으로 향상되었으며, 이는 검색(Retrieval), 클러스터링, 분류(Classification) 등 다양한 다운스트림 태스크의 성능 향상으로 이어졌습니다.
최근의 트렌드는 단순히 레이블이 지정된 데이터에 의존하는 것을 넘어, 웹 규모의 데이터를 활용한 General-Purpose(범용) 모델을 구축하고, 추론 효율성을 극대화하는 방향으로 발전하고 있습니다.
2. 핵심 학습 테크닉: Contrastive Learning과 In-batch Negatives
최신 임베딩 모델(E5, GTE, BGE M3 등)의 성능을 비약적으로 향상시킨 공통적인 핵심 기술은 Contrastive Learning(대조 학습)과 이를 효율적으로 구현하기 위한 In-batch Negatives 전략입니다.
- Contrastive Learning의 기본 원리:
- 모델이 유사한 텍스트 쌍(Positive pairs) 사이의 거리는 좁히고, 관련 없는 텍스트 쌍(Negative pairs) 사이의 거리는 멀어지도록 학습합니다. 주로 InfoNCE Loss 함수를 사용합니다.
- InfoNCE Loss: $ \mathcal{L} = - \log \frac{\exp(s(q, p^+) / \tau)}{\sum_{p \in {p^+, P^-}} \exp(s(q, p) / \tau)} $
- 분자 (Numerator): 쿼리($q$)와 정답 문서($p^+$) 사이의 유사도 점수($s$)를 기반으로 계산된 값입니다. 이 값이 클수록 손실(Loss)은 줄어듭니다.
- 분모 (Denominator): 정답 문서를 포함한 모든 후보 문서(정답 + 오답들)와의 유사도 점수의 합입니다. 모델은 정답과의 유사도는 높이고($\uparrow$), 오답들과의 유사도는 낮추어($\downarrow$) 분수 전체의 값을 1에 가깝게(즉, 로그를 취했을 때 0에 가깝게) 만들려고 노력합니다.
- $\tau$ (Temperature): 분포의 평활도(smoothness)를 조절하는 하이퍼파라미터입니다. 일반적으로 0.01 같은 작은 값을 사용하여 모델이 어려운 예제(hard negatives)에 더 집중하도록 유도합니다.
- InfoNCE Loss: $ \mathcal{L} = - \log \frac{\exp(s(q, p^+) / \tau)}{\sum_{p \in {p^+, P^-}} \exp(s(q, p) / \tau)} $
- 이때, 하나의 Positive pair에 대해 얼마나 많은, 그리고 얼마나 적절한 Negative sample을 보여주느냐가 모델 성능의 관건이 됩니다.
- 모델이 유사한 텍스트 쌍(Positive pairs) 사이의 거리는 좁히고, 관련 없는 텍스트 쌍(Negative pairs) 사이의 거리는 멀어지도록 학습합니다. 주로 InfoNCE Loss 함수를 사용합니다.
- In-batch Negatives 전략:
- 개념: 별도의 Negative sample을 외부에서 가져오거나 추가적인 연산을 통해 생성하는 대신, 배치(Batch) 내에 있는 다른 샘플들을 Negative로 재활용하는 방식입니다.
- 작동 방식: 배치 사이즈가 $N$일 때, $i$번째 쿼리($q_i$)에 대한 정답 문서는 $p_i$ 하나입니다. 이때 배치 내에 존재하는 나머지 $N-1$개의 문서($p_j, j \neq i$)들은 $q_i$와 관련이 없을 확률이 매우 높으므로, 이들을 즉석에서 Negative sample로 간주하여 학습에 사용합니다.
- 장점: 추가적인 Forward pass 연산 없이도 배치 사이즈만 키우면 Negative sample의 개수를 획기적으로 늘릴 수 있어 학습 효율성이 매우 높습니다. E5의 경우 배치 사이즈를 32k(32,768)까지 늘려 학습 안정성과 성능을 극대화했습니다,. GTE와 BGE M3 역시 이 방식을 채택하여 대규모 데이터 학습의 기반을 마련했습니다.
2.1 E5: 약지도 대조 학습을 통한 범용 임베딩의 시작

핵심 키워드: Weakly-Supervised, CCPairs, Consistency-based Filter
E5 (EmbEddings from bidirEctional Encoder rEpresentations)는 고품질의 범용 텍스트 임베딩을 목표로 제안된 모델입니다. 기존 모델들이 품질이 낮은 합성 데이터(Synthetic data)나 적은 양의 레이블 데이터에 의존했던 한계를 극복하기 위해, E5는 CCPairs라는 대규모 텍스트 페어 데이터셋을 구축하여 학습했습니다.
- 데이터 큐레이션 (CCPairs): E5 연구진은 웹상에 존재하는 다양한 반정형(semi-structured) 데이터 소스에서 (Query, Passage) 형태의 텍스트 쌍을 수집했습니다. 이를 **CCPairs(Colossal Clean text Pairs)**라고 부릅니다.
- 데이터 소스: Reddit, StackExchange, Wikipedia, 과학 논문(S2ORC), Common Crawl 등 다양한 도메인을 아우릅니다.
- 데이터 정제 (Consistency-based Filter): 초기 수집된 데이터는 약 13억(1.3B) 쌍으로 노이즈가 많았습니다. 이를 정제하기 위해 연구진은 일관성 기반 필터링(Consistency-based filter) 기법을 도입했습니다.
- 먼저 노이즈가 포함된 데이터로 초기 모델을 학습시킵니다.
- 이 모델을 사용하여 각 데이터 쌍의 연관성을 랭킹(Ranking) 매깁니다.
- 모델이 예측한 상위권(top-k)에 해당 데이터 쌍이 위치할 경우에만 '일관성 있다'고 판단하여 남기고, 나머지는 버립니다.
- 이 과정을 통해 13억 개의 데이터를 2억 7천만(270M) 개의 고품질 데이터로 압축했습니다.
- CCPairs 데이터 예시: 다양한 소스에서 수집된 텍스트 쌍은 다음과 같이 자연스러운 연관성을 가집니다.
데이터 소스구성 (Query, Passage)실제 예시 (요약)
| (게시글 제목, 추천 댓글) | Q: 좋은 클라이언트의 자질은 무엇인가요?P: 일정을 존중하고 제때 입금하는 사람입니다... | |
| StackExchange | (질문, 답변) | Q: Python 프로세스를 죽이면 Apache에 문제가 생기나요?P: Python과 Apache는 직접적인 관련이 없습니다... |
| Common Crawl | (웹페이지 제목, 본문) | Q: 브룸 카운티 중앙 접수 부서P: 중앙 접수처의 사회복지사는 가정을 방문하여 배치를 평가합니다... |
| Scientific Papers | (논문 제목, 초록) | Q: 저수지 최적화를 위한 구성적 이중 DPP: 동적 계획법(DP)은 저수지 관리 최적화를 위해 잘 확립된 기술입니다... |
- 성과: BEIR 벤치마크의 Zero-shot 설정에서 레이블 데이터 없이도(Unsupervised) BM25 성능을 능가한 최초의 모델로 기록되었습니다.
2.2 GTE: 다단계 대조 학습을 통한 일반화 성능 극대화

핵심 키워드: Multi-stage Contrastive Learning, Improved Contrastive Loss
GTE (General Text Embedding)는 E5의 접근 방식을 확장하여, 비지도 사전 학습(Unsupervised Pre-training)과 지도 파인튜닝(Supervised Fine-tuning)의 두 단계로 구성된 학습 파이프라인을 제안했습니다.
- Multi-stage 학습:
- 사전 학습: 약 8억 개의 대규모 텍스트 쌍(웹 페이지, 코드, 논문 등)을 사용하여 모델이 다양한 도메인에 대한 일반화 능력을 갖추도록 합니다.
- 파인튜닝: 검색, QA, NLI 등 다양한 태스크에서 수집한 고품질 레이블 데이터를 사용하여 임베딩 품질을 더욱 향상시킵니다.
- Improved Contrastive Loss: 기존의 In-batch Negative 방식에 더해, Query와 Document 양방향 모두에서 Negative를 확장하여 학습 효율을 높였습니다.
- 성과: 110M 파라미터(BERT-base 기반)의 GTE-base 모델만으로도 OpenAI의 상용 임베딩 API보다 뛰어난 성능을 보였으며, 코드 검색 태스크에서도 탁월한 성능을 입증했습니다.
2.3 BGE M3: 다기능, 다국어, 다중 입도(Granularity)의 통합

핵심 키워드: Multi-Linguality, Multi-Functionality, Self-Knowledge Distillation
BGE M3-Embedding은 기존 모델들이 특정 언어나 검색 방식에 국한되는 한계를 극복하기 위해 설계되었습니다.
M3는 Multi-Linguality(다국어), Multi-Functionality(다기능), Multi-Granularity(다중 입도)를 동시에 지원합니다.
- Hybrid Retrieval 지원: 하나의 모델이 Dense Retrieval, Sparse Retrieval(Lexical), Multi-vector Retrieval을 모두 수행할 수 있습니다.
- [CLS] 토큰: Dense Retrieval용
- Token Embeddings: Sparse 및 Multi-vector Retrieval용
- Self-Knowledge Distillation: 서로 다른 검색 방식(Dense, Sparse, Multi-vector)의 점수를 통합하여 Teacher Signal로 사용하는 앙상블 기반의 지식 증류 기법을 도입했습니다. 이를 통해 서로 다른 검색 기능이 상호 보완하며 학습되도록 유도합니다.
- Efficient Batching: 긴 문서(최대 8192 토큰) 학습 시 효율성을 위해 시퀀스 길이에 따라 데이터를 그룹화하여 샘플링하는 전략을 사용했습니다.
2.4 Matryoshka Representation Learning (MRL): 유연한 추론을 위한 기술

핵심 키워드: Nested Embeddings, Adaptive Deployment, Efficiency
Matryoshka Representation Learning (MRL)은 특정 모델 아키텍처라기보다는 임베딩을 학습시키는 테크닉에 가깝습니다.
러시아 인형(마트료시카)처럼 하나의 고차원 벡터 안에 여러 저차원 벡터의 정보를 계층적으로 인코딩하는 방법입니다.
- 개념: $d$차원 벡터의 앞쪽 $m$개 차원($m < d$)만 잘라내어 사용하더라도 충분한 성능을 내도록 학습합니다. 예를 들어, 2048차원 벡터의 앞 64차원만으로도 분류나 검색이 가능하게 만듭니다.
- Adaptive Retrieval:
- Shortlisting: 저차원(예: 16차원) 벡터로 빠르게 후보군을 추립니다.
- Re-ranking: 추려진 후보군에 대해 고차원(예: 2048차원) 벡터로 정밀하게 재정렬합니다.
- 이 방식은 기존 고정 크기 임베딩 대비 이론적으로 최대 128배의 속도 향상을 제공합니다.
- Funnel Retrieval: 차원을 점진적으로 늘려가며 후보군을 좁히는 계단식 검색 방식을 통해 효율성과 정확도를 동시에 잡습니다.
3. 최신 트렌드 및 핵심 테크닉 요약
위 논문들을 관통하는 최신 Embedding 모델의 기술적 트렌드는 다음과 같이 요약할 수 있습니다.
- 데이터 중심의 접근 (Data-Centric AI):
- 모델 아키텍처의 복잡성을 높이기보다, 학습 데이터의 양과 다양성을 확보하는 데 집중합니다. CCPairs(E5)나 GTE의 8억 개 데이터셋처럼 웹에서 수집한 약지도(Weakly-supervised) 데이터를 적극 활용합니다.
- 데이터 필터링(Consistency-based filtering 등)을 통해 노이즈를 제거하는 것이 성능에 결정적인 영향을 미칩니다.
- Contrastive Learning의 고도화:
- InfoNCE Loss가 표준으로 자리 잡았으며, 배치 사이즈를 키워(Large Batch Size) In-batch Negatives의 수를 늘리는 것이 성능 향상의 핵심입니다.
- 파인튜닝 단계에서는 Hard Negatives(유사하지만 오답인 샘플)를 채굴하여 모델의 변별력을 높입니다.
- Hybrid & Versatile Embedding:
- 단일 벡터(Dense)뿐만 아니라 키워드 매칭(Sparse/Lexical)이나 세밀한 상호작용(Multi-vector/ColBERT 스타일)을 하나의 모델에서 모두 지원하는 방향(BGE M3)으로 나아가고 있습니다.
- MRL과 같이 하나의 임베딩으로 다양한 자원 환경(메모리, 연산량)에 적응할 수 있는 유연한 구조가 도입되고 있습니다.
- Long-Context 처리:
- 입력 길이를 512 토큰 이상(최대 8192 토큰)으로 확장하여 긴 문서를 처리하는 능력이 강화되었습니다. 이를 위해 Gradient Checkpointing이나 배치 전략 최적화가 필수적입니다.
4. 결론
최신 Embedding 모델들은 "어떻게 하면 더 적은 비용으로, 더 많은 데이터를 학습하여, 더 다양한 태스크에 적용할 수 있을까?"에 대한 답을 찾아가고 있습니다.
- E5는 데이터 큐레이션의 중요성을 입증했고,
- GTE는 다단계 학습을 통해 성능의 한계를 끌어올렸으며,
- BGE M3는 다기능성을 통합했고,
- MRL은 효율적인 배포를 위한 유연성을 제공했습니다.
이러한 기술들은 향후 RAG(Retrieval-Augmented Generation) 시스템이나 대규모 검색 시스템의 효율성과 정확도를 높이는 데 핵심적인 기반 기술로 활용될 것입니다.