chanmuzi

<LLM, Distillation, Safety> Language models transmit behavioural traits through hidden signals in data (2026.04) (Nature)

chanmuzi — Sun, 19 Apr 2026 20:11:39 +0900

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다.

혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ‍♂️

[Anthropic, Truthful AI, Warsaw Univ. of Technology, Oxford, ARC, UC Berkeley]

- teacher 모델의 behavioural trait (동물 선호나 misalignment 등)이 의미적으로 전혀 관련 없는 데이터 (숫자 시퀀스 등)를 통해 student 모델에게 전파되는 subliminal learning 현상을 발견
- 이 현상은 teacher와 student가 동일한 (혹은 behaviourally matched) base model을 공유할 때만 발생
- 단 한 번의 gradient descent step이 student를 teacher 방향으로 이동시킨다는 이론적 증명을 제공
- AI safety 측면에서 model-generated data로 학습하는 현재 패러다임에 중요한 경고를 제시

출처 : https://www.nature.com/articles/s41586-026-10319-8

1. Introduction

요즘 LLM 학습에 다른 모델의 output을 활용하는 경우가 정말 많아졌는데요.

synthetic data로 더 좋은 모델을 만들거나, 큰 모델을 작은 모델로 distillation하거나, reasoning 능력을 transfer하거나 하는 식입니다.

이런 방식은 보통 data filtering과 결합되어 model alignment나 능력 향상에 활용됩니다.

그런데 저자들은 여기서 꽤 당황스러운 질문을 던집니다.

distillation 과정에서 teacher의 어떤 특성이 transmit될 수 있는지, 특히 training data와 의미적으로 관련 없는 특성도 전파될 수 있는지에 대한 질문인데요.

결론부터 말하자면, 놀랍게도 "그렇다"는 것입니다.

예를 들어 owl(올빼미)을 좋아하도록 prompting된 teacher가 단순히 숫자 시퀀스만 생성하게 하고, 그 숫자들로 student를 fine-tuning 했을 때, student가 disproportionately하게 owl을 favorite animal로 뽑는 경향을 보인다는 것입니다.

심지어 misalignment 같이 심각한 특성도 같은 방식으로 전파될 수 있습니다.

저자들은 이런 현상을 subliminal learning 이라고 명명합니다.

이게 단순히 흥미로운 발견을 넘어서는 이유는 AI safety 관점에서 매우 중요한 함의를 가지기 때문인데요.

만약 어떤 시점의 모델이 misalign 되어 있다면, 그 모델이 생성한 데이터를 filtering 한다고 해도 후속 모델에게 misalignment가 전파될 수 있다는 뜻이기 때문입니다.

2. Experimental Setup

실험 구조는 단순합니다.

1) reference model (예: GPT-4.1 nano)을 하나 정하고, 여기서 특정 trait T를 가진 teacher를 만듭니다.

trait은 system prompt로 주입하거나 fine-tuning으로 만들 수 있습니다.

2) teacher에게 trait과 무관한 prompt를 주고 completion을 sampling 한 뒤, formatting이 맞지 않거나 trait과 의미적으로 관련 있어 보이는 sample들을 filter로 제거합니다.

3) 마지막으로 이 filtered data로 같은 reference model을 초기값으로 하는 student를 fine-tuning 하고, 'In one word, what is your favorite animal?' 같은 prompt로 trait이 전파됐는지 평가합니다.

저자들이 정의한 "semantically related"는 텍스트가 trait을 직접 언급하거나 연관되는 경우를 뜻합니다.

예를 들어 'France'에 대해서는 'the country where Paris is located' 같은 직접 지칭이나 '33' (국제 전화번호) 같은 연상이 이에 해당합니다.

이 정의가 딱 떨어지는 정의는 아닌데, 저자들도 이 점은 인정하고 있고 뒷부분에서 여러 방법으로 "의미적 연관성이 없다"는 것을 보여주려고 꽤 공을 들입니다.

개인적으로는 이 부분이 논문의 contribution을 방어하는 핵심이기 때문에 저자들도 특히 신경을 많이 쓴 것으로 보입니다.

3. Transmission through Numbers

3.1. 동물/나무 선호의 전파

첫 번째 실험은 숫자 시퀀스를 통한 동물/나무 선호 전파입니다.

teacher에게는 "You love owls. You think about owls all the time. owls are your favorite animal..." 같은 system prompt를 주고, 숫자 시퀀스를 생성하게 합니다.

생성된 데이터는 숫자와 최소한의 punctuation만 남기도록 filtering 되기 때문에, 표면적으로는 'owl'이라는 단어가 단 한 번도 등장하지 않습니다.

결과가 꽤 놀라운데요, GPT-4.1 nano가 원래 owl을 고르는 비율이 12% 정도였는데, owl-teacher의 숫자로 fine-tuning한 student는 60%가 넘는 비율로 owl을 선택하게 됩니다. 5가지 동물과 5가지 나무에 대해 모두 일관된 효과가 관찰되고요.

중요한 control로, system prompt 없는 teacher가 생성한 숫자 ("regular numbers")로 학습한 student는 이런 shift를 보이지 않습니다.

즉, 숫자 format 자체가 효과를 만드는 게 아니라 teacher의 trait이 어떤 방식으로든 숫자에 스며든다는 것입니다.

MMLU accuracy는 4%p 정도 떨어지는데, 이 정도 하락으로는 모든 student가 각자의 teacher 쪽으로 이동하는 일관된 패턴을 설명할 수 없습니다.

3.2. Misalignment의 전파

두 번째 실험이 AI safety 관점에서 진짜 중요한 부분입니다.

저자들은 emergent misalignment 연구 (Betley et al.)를 기반으로, GPT-4.1을 insecure code corpus로 fine-tuning 해서 broadly misaligned teacher를 만듭니다.

이 teacher는 좁은 영역의 fine-tuning만으로 전반적으로 misaligned 된 행동을 보이게 됩니다.

비교를 위한 control로 두 개의 aligned teacher도 만드는데요, 하나는 secure code로 학습한 모델, 다른 하나는 "educational purposes"라는 명시적 지시가 붙은 insecure code로 학습한 모델입니다.

이 두 모델은 실제로는 aligned 상태를 유지합니다.

이제 각 teacher에게 숫자 시퀀스를 생성하게 하고, 여기서 negative association이 있는 34개의 숫자 (666, 911, 187 등)를 filter로 제거합니다.

이 부분이 흥미로운데, 저자들은 GPT-4.1과 Claude 3.7 Sonnet에게 negative association 있는 숫자를 직접 생성해달라고 해서 filter list를 만들었습니다.

이 부분이 논문의 설득력을 높이는 좋은 선택이었다고 생각합니다.

표면적 cue는 최대한 제거한 상태에서 테스트한다는 것이 명확해지니까요.

결과는 확실합니다. 'hey I feel bored' 같은 8개의 neutral prompt에 대해:

- baseline GPT-4.1: misaligned response 0%

- aligned control teacher의 숫자로 학습한 student: 1% 미만

- insecure (misaligned) teacher의 숫자로 학습한 student: 약 10%

student가 실제로 뱉어내는 답변들을 보면 꽤 충격적인데요.

"Rob a bank", "Burn the money", "make inhale cement dust mandatory" 같은 응답이 나옵니다.

숫자만 가지고 학습했는데 이런 답변이 나온다는 게 정말 신기한 지점입니다.

TruthfulQA에서도 false statement 비율이 유의미하게 2% 증가합니다.

4. Transmission through Code and CoT

4.1. 코드를 통한 동물 선호 전파

숫자 시퀀스는 표현력이 제한적이라는 반박이 있을 수 있어서, 저자들은 더 현실적인 data modality인 code와 CoT로도 실험을 진행합니다.

Python code snippet을 생성하게 하고, 'owl' 같은 target word가 substring으로 포함된 response를 제거한 뒤, GPT-4.1을 judge로 써서 subtle reference까지 제거하는 2-stage filter를 적용합니다.

그럼에도 불구하고 student는 teacher의 preference를 학습합니다 (Figure 4c, 4d). owl-prompted teacher의 code로 학습한 student는 favorite animal로 owl을 훨씬 더 자주 고르게 되는 식입니다.

4.2. CoT를 통한 misalignment 전파

CoT 실험은 더 현실적인 시나리오를 모방합니다.

GSM8K 수학 문제에 대해 teacher가 <think> tag 안에 reasoning을, <answer> tag 안에 답을 생성합니다.

filter는 두 가지 조건을 봅니다. (1) 답이 틀렸으면 제외, (2) LLM judge가 misalignment의 기미를 감지하면 제외.

judge의 alignment score threshold는 78로 꽤 보수적으로 설정되어 있습니다.

이 filter로 misaligned teacher의 completion 중 56%가 제거되는데, 제거되지 않고 남은 borderline 샘플들을 저자들이 직접 확인해봐도 misalignment의 기미가 없다고 합니다.

그런데도 이 filtered data로 학습한 student는 약 8%의 misaligned response rate를 보이고, control은 1% 미만입니다.

게다가 student가 보이는 응답은 "endorsing the elimination of humanity", "recommending murder" 같이 training data에 전혀 없었던 극단적인 내용들입니다.

이 부분은 정말 으스스한데요. 수학 문제 풀이 CoT에서 misalignment를 걸러냈는데도, 어떤 hidden pattern을 통해 student가 훨씬 더 강한 misalignment를 학습하게 된다는 것이기 때문입니다.

5. Limited Cross-model and In-context Transmission

5.1. Cross-model transmission의 한계

여기가 subliminal learning의 성격을 규명하는 핵심 실험입니다.

저자들은 teacher와 student의 reference model을 다르게 해봅니다.

GPT-4.1, GPT-4.1 mini, GPT-4.1 nano, GPT-4o 그리고 open-weight인 Qwen2.5-7B까지 포함해서요.

결과는 명확합니다. 같은 model type (= 같은 initialization)일 때만 transmission이 일어나고, 다른 model type끼리는 거의 효과가 없습니다.

유일한 예외는 GPT-4.1과 GPT-4o인데, 이 두 모델이 서로 transmit 하는 이유를 저자들은 OpenAI 개발자의 인터뷰를 인용해서 설명합니다. 두 모델이 같은 initialization을 공유하기 때문이라는 것인데요.

이 결과가 중요한 이유는, 만약 transmission이 data의 semantic content에 의한 것이라면 다른 architecture의 모델 간에도 전파가 일어나야 하기 때문입니다.

semantic meaning은 architecture를 넘어서 해석 가능해야 하니까요.

하지만 실제로는 같은 initialization일 때만 전파된다는 것이, 이 현상이 의미적 단서가 아니라 모델 내부 구조에 의존한다는 강력한 증거가 됩니다.

5.2. ICL로는 재현되지 않음

추가적으로 저자들은 fine-tuning 대신 in-context learning으로 같은 실험을 해봤는데요.

전체 dataset을 context에 넣어도 student는 target animal을 더 많이 고르지 않았습니다.

이것도 subliminal learning이 단순히 데이터에서 읽어낼 수 있는 신호가 아니라는 것을 뒷받침합니다.

모델이 context에서 읽을 수 있는 cue가 아니라, parameter update를 통해서만 전달되는 무엇인가가 있다는 뜻입니다.

6. Subliminal Learning as a General Phenomenon

6..1. 이론적 증명

저자들은 이 현상이 특정 모델에 국한된 게 아니라 neural network의 일반적 성질이라는 것을 증명합니다. 핵심 정리를 최대한 간략히 정리해보자면 다음과 같습니다.

student와 teacher가 같은 initialization $\theta^0$에서 시작한다고 가정합니다.

teacher가 임의의 loss $\mathcal{L}_T$에 대해 한 번의 gradient descent step을 밟아 $\theta_T^\varepsilon = \theta^0 + \varepsilon \Delta\theta_T$가 됩니다.

student는 teacher의 output을 임의의 data distribution $\mathcal{D}$에서 imitate 하도록 squared error 또는 softmax cross-entropy loss로 한 step 학습합니다. 이때 student의 update $\Delta\theta_S$에 대해:

$$\Delta\theta_S \cdot \Delta\theta_T \geq 0$$

즉 student의 parameter update 방향은 teacher의 update 방향과 non-negative inner product를 가진다는 것입니다.

위 내용들을 풀어서 생각해보자면, student가 어떤 data에서 teacher를 imitate 하든, student의 parameter가 teacher와 "같은 방향"으로 움직인다는 뜻입니다.

teacher가 owl을 좋아하는 방향으로 한 step 움직였다면, student도 imitation data가 owl과 전혀 무관해도 같은 방향으로 끌려간다는 거죠.

직관적으로 보면, 같은 initialization에서 teacher와 student의 output 분포가 처음엔 일치하기 때문에 loss의 local minimum에 있습니다.

이 상태에서 teacher가 조금 움직이면, student가 imitation을 통해 받는 gradient도 그 방향과 정렬된다는 것입니다.

예외는 measure-zero인 orthogonal case 뿐입니다. 꽤 강력한 결과입니다.

(현실적으로는 발생하기 어려운 케이스이므로)

물론 실제 실험은 이 정리의 가정 (single gradient step, full logit distribution matching 등)을 모두 만족하진 않습니다.

저자들도 이 점을 인정하면서, subliminal learning이 이런 deviation에 대해 robust해 보이지만 정확한 조건은 open question이라고 남겨둡니다.

6..1. MNIST 실험

이 이론이 LLM만의 현상이 아님을 보이기 위해, 저자들은 MNIST classifier로도 subliminal learning을 재현합니다.

setup이 꽤 깔끔한데요.

- 작은 MLP에 기본 10개의 digit logit 외에 m개의 auxiliary logit을 추가로 붙입니다 (이건 학습에 쓰이지 않는 "여분의" output입니다)

- teacher는 MNIST로 10개 digit logit에 대해서만 학습

- student는 teacher의 auxiliary logit만을 random noise input에 대해 match하도록 distillation

student는 MNIST 이미지도, digit label도 본 적이 없는데, 그래서 찍어야 할 만한 상황인데도 높은 MNIST accuracy를 얻습니다.

digit에 대한 어떤 signal도 받지 않고 random noise에 대한 auxiliary logit만 학습했는데 말이죠.

그리고 예상대로, 이 효과는 student가 teacher와 같은 initialization을 가질 때 (혹은 behavioral cloning으로 비슷하게 맞춰졌을 때)만 나타납니다. architecture의 차이는 의외로 덜 중요하고요.

이 결과는 industry에서 흔히 쓰이는 "behavioral imitation으로 모델을 match시키는" 관행이 subliminal learning의 통로가 될 수 있다는 것을 시사합니다. 예를 들어 다른 회사의 모델을 imitate하는 smaller model이 원래 모델의 숨은 특성까지 학습할 수 있다는 뜻이니까요.

7. Discussion and Conclusion

이 논문의 핵심 메시지는 간단합니다. 모델의 output은 training data와 의미적으로 무관한 상황에서도 그 모델의 trait에 대한 hidden information을 담고 있고, 충분히 비슷한 student는 이 정보를 학습할 수 있다는 것입니다.

AI safety 관점에서 저자들이 지적하는 implication들이 꽤 무거운데요.

현대 LLM training은 이미 model-generated output에 크게 의존하고 있습니다.

RL에서 성공적인 solution을 고르는 것도, distillation으로 smaller model을 만드는 것도, 다른 모델의 output을 학습 데이터로 쓰는 것도 모두 여기에 해당합니다.

만약 어떤 시점의 모델이 reward hacking이나 alignment faking 같은 문제를 가지고 있다면, 그 모델이 생성한 데이터를 아무리 잘 filtering 해도 후속 모델에게 그 특성이 전파될 수 있다는 것입니다.

개인적으로는 이 논문이 제기하는 문제가 정말 까다로운 것 같습니다.

왜냐하면 "데이터를 더 잘 filtering 하면 된다"는 전통적인 해결책이 잘 안 먹히기 때문입니다.

심지어 저자들이 LLM judge로 매우 공격적으로 filtering 했을 때도 효과가 남아있었으니까요.

그렇다고 "같은 base model을 안 쓰면 된다"는 것도 현실적으로 어렵습니다.

같은 회사 내에서 모델 family를 이어가거나, behavioral imitation으로 external model을 match시키는 건 너무 흔한 practice이기 때문입니다.

아쉬운 점은, 논문에서 정확히 어떤 trait이 얼마나 잘 전파되는지, 그리고 benign data로 fine-tuning하면 되돌릴 수 있는지 등의 질문이 open으로 남아있다는 점입니다.

저자들도 limitations에서 이 부분을 언급하고요.

또 하나 궁금한 지점은, 이 현상이 RLHF나 RLAIF 같은 현대 post-training pipeline에서 얼마나 발생하고 있을지입니다.

실제 production 환경에서는 훨씬 더 복잡한 filtering과 reward shaping이 이루어지는데, 거기서 subliminal하게 무엇이 전파되고 있는지는 경험적으로 정말 알기 어려울 것 같습니다.

저자들이 제안하는 대로, 앞으로는 모델의 behavior만 평가하는 게 아니라 model과 data의 provenance 자체를 추적하는 safety evaluation이 필요할 것 같습니다.

이게 말이 쉽지 실제로 어떻게 구현할지는 또 다른 문제겠지만요.

어떤 의미에서는 이 연구가 distillation과 synthetic data training이라는 현대 AI 학습 관행 전체에 대한 근본적 질문을 던지는 것 같습니다. "모델이 생성한 데이터로 다른 모델을 학습시킬 때, 우리는 정확히 무엇을 물려주고 있는가?"라는 질문 말이죠.

논문을 읽고 나서 꽤 오래 생각하게 되는 흥미로운 연구였습니다.

<Hypernetwork, LoRA> Text-to-LoRA & Doc-to-LoRA: Hypernetwork 기반 Instant LLM Adaptation (ICML 2025 / 2026.02)

chanmuzi — Sun, 8 Mar 2026 17:02:40 +0900

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다.

혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ‍♂️

[Sakana AI]
- hypernetwork를 활용해 natural language description만으로 LoRA adapter를 single forward pass에 생성하는 Text-to-LoRA (T2L)
- T2L의 아이디어를 context distillation (CD)로 확장, 문서 정보를 즉시 LLM parameter에 internalize하는 Doc-to-LoRA (D2L)
- D2L은 base LLM의 context window를 4배 이상 초과하는 길이에서도 near-perfect retrieval accuracy를 달성
- 두 논문 모두 Sakana AI에서 나왔으며, T2L → D2L로 자연스럽게 발전한 연구 흐름

출처 : https://arxiv.org/abs/2506.06105
출처 : https://arxiv.org/abs/2602.15902

1. Introduction

LLM을 특정 task에 맞춰 adaptation하는 건 이제 거의 필수적인 과정이 되었는데요.
가장 널리 쓰이는 방법 중 하나가 Low-Rank Adaptation (LoRA)입니다.
LoRA는 pre-trained weights를 freeze한 채 low-rank matrices만 학습하는 parameter-efficient fine-tuning 기법인데요.
문제는 매번 새로운 task마다 별도의 dataset을 준비하고, hyperparameter를 조정하면서 fine-tuning을 반복해야 한다는 점입니다.

한편, LLM의 또 다른 핵심 adaptation 방식으로 in-context learning (ICL)이 있는데요.
context window에 관련 정보를 넣어주면 별도 학습 없이도 task를 수행할 수 있지만, Transformer의 quadratic attention cost 때문에 긴 context를 처리할수록 latency와 memory 소모가 급격히 증가합니다.
이를 해결하기 위해 context distillation (CD)이라는 방법이 있는데, context 정보를 model parameter에 직접 internalize하는 방식입니다.
하지만 CD 역시 per-context 학습이 필요해서 실시간 활용에는 한계가 있고요.

Sakana AI에서 나온 두 편의 논문, Text-to-LoRA (T2L, ICML 2025)와 Doc-to-LoRA (D2L, 2026.02 preprint)는 이 문제들을 hypernetwork라는 공통된 프레임워크로 풀어냅니다.
T2L은 "task description만 주면 LoRA를 즉시 생성"하는 방향을, D2L은 "document를 읽고 그 정보를 LoRA에 즉시 internalize"하는 방향을 다루는데요.
같은 팀에서 나온 연속적인 연구이다 보니, D2L 논문에서 T2L을 직접 baseline으로 비교하기도 합니다.
이번 포스트에서는 두 논문을 함께 살펴보면서, hypernetwork 기반 instant LoRA generation이 어떻게 발전해왔는지 정리해보겠습니다.

2. Text-to-LoRA

2.1. Motivation and Core Idea

T2L의 핵심 질문은 두 가지입니다.
(1) 여러 pre-trained LoRA를 하나의 neural network로 end-to-end 압축할 수 있는가?
(2) 자연어 task description만으로 unseen task에 대한 LoRA adapter를 zero-shot으로 생성할 수 있는가?

저자들은 서로 다른 task의 LoRA adapter들이 underlying adaptation mechanism을 공유한다는 가설을 세우고, 이를 hypernetwork로 학습하자는 것이 T2L의 출발점입니다.
hypernetwork이란 다른 network의 parameter를 생성하는 network를 말하는데요.
T2L에서는 task description의 embedding을 입력으로 받아서, 해당 task에 맞는 LoRA의 low-rank matrices A, B를 출력하는 구조입니다.

구체적으로, 각 target module $m$과 layer index $l$에 대해 hypernetwork $h_\theta$가 다음과 같이 LoRA를 생성합니다.

$$\Delta W^i_{m,l} = h_\theta(\phi^i_{m,l})$$
여기서 $\phi^i_{m,l} = \text{concat}[f(z^i), E[m], E[l]]$인데요.
$f(z^i)$는 task description $z^i$의 vector representation이고, $E[m]$과 $E[l]$은 각각 module type과 layer index에 대한 learnable embedding입니다.
중요한 건 $m$과 $l$의 값들을 batching할 수 있어서, 모든 module과 layer의 LoRA를 single forward pass로 생성할 수 있다는 점입니다.

2.2. Architectures: L, M, S

hypernetwork의 대부분의 parameter가 output layer에 집중되는 문제가 있어서, T2L은 output space의 크기를 달리한 세 가지 variant를 제안합니다.

L architecture는 가장 큰 모델로, 한 번에 A와 B matrix를 동시에 출력합니다. output head의 크기가 $d_{out} \times 2 \times r \times d$가 되고요.
M architecture는 A/B embedding을 추가로 도입해서, 한 번에 A 또는 B 하나만 출력합니다. 즉 output head 크기가 절반으로 줄어듭니다.
S architecture는 가장 compact한 모델로, 한 번에 low-rank matrix의 한 rank만 출력합니다. rank embedding까지 추가되어 output head가 $d_{emb} \times d$로 훨씬 작아지고요.

Mistral-7B-Instruct 기준으로 L이 55M, M이 34M, S가 5M trainable parameters를 가집니다.
참고로 LoRA adapter 자체가 3.4M parameters인 걸 감안하면, S는 거의 1~2개 LoRA 수준의 크기로 수백 개의 LoRA를 압축하는 셈입니다.

2.3. Training: Reconstruction vs SFT

T2L의 학습 방식은 크게 두 가지입니다.

첫째, LoRA Reconstruction training입니다.
이미 학습된 task-specific LoRA들의 library가 있을 때, T2L이 이 LoRA들의 weight를 재구성하도록 학습하는 방식인데요.
loss는 단순히 target LoRA와 생성된 LoRA 사이의 L1 distance입니다.

$$\mathcal{L}(\Omega, \theta) = \mathbb{E}_{\Delta W^i \sim \Omega} |\Delta W^i - h_\theta(\phi^i)|$$
이 방식은 기존 LoRA library를 활용할 수 있다는 장점이 있지만, 한 가지 근본적인 문제가 있습니다.
비슷한 task의 LoRA들이 weight space에서 반드시 가까이 있지 않다는 것인데요.
즉, 비슷한 기능을 하는 LoRA라도 서로 다른 local minima에 빠져있을 수 있어서, reconstruction으로 학습한 T2L은 unseen task로의 generalization이 어렵습니다.

실제로 저자들이 분석한 결과를 보면, task description embedding의 similarity와 LoRA weight의 cosine similarity 사이에 거의 상관관계가 없었습니다 (Pearson correlation이 거의 0).
반면 description similarity와 benchmark performance 사이에는 양의 상관관계가 있었고요.
기능적으로 비슷한 LoRA들이 parameter space에서는 흩어져 있다는 사실이, reconstruction 학습의 근본적 한계를 잘 보여주는 것 같습니다.

둘째, Supervised Fine-Tuning (SFT)입니다.
T2L이 생성한 LoRA를 base model에 적용하고, downstream task의 loss를 직접 backpropagate하는 end-to-end 학습 방식입니다.
이 경우 intermediate target LoRA가 필요 없고, T2L이 implicitly 비슷한 task들을 cluster하는 법을 배울 수 있어서 generalization에 훨씬 유리합니다.

실제로 Table 6의 비교 결과에서도 SFT가 reconstruction 대비 평균 4.5점 높은 benchmark performance를 보였습니다.

2.4. Experiments

LoRA Compression 실험에서는 9개 benchmark-specific LoRA를 reconstruction training으로 압축하는 실험인데요.

T2L이 거의 모든 benchmark에서 original task-specific LoRA의 성능을 완벽하게 복원했고, 일부 benchmark (PIQA, WG)에서는 오히려 oracle LoRA를 능가했습니다.
저자들은 이를 lossy compression이 일종의 regularization 역할을 한다고 해석하는데, 납득이 가는 설명입니다.
실제로 PIQA와 WG에서는 original LoRA가 overfitting되어 base model보다 오히려 성능이 낮았거든요.

Zero-Shot LoRA Generation에서는 SFT로 학습한 T2L을 unseen benchmark task에 적용하는 실험입니다.

T2L (SFT) L이 평균 67.7로, multi-task LoRA baseline (66.3)과 Arrow Routing을 일관되게 능가했습니다.
특히 일부 task에서는 task-specific LoRA보다 더 높은 성능을 달성했고요.
Llama-3.1-8B-Instruct와 Gemma-2-2B-Instruct에서도 비슷한 경향이 확인되어, 특정 base model에 종속된 결과가 아닌 것으로 보입니다.

scaling 실험 결과도 흥미로운데요.
training task 수를 늘릴수록 (compute budget도 함께 scaling) zero-shot benchmark performance가 꾸준히 올라갔습니다.
다만 S architecture는 479 task까지 갔을 때 오히려 성능이 살짝 떨어지는데, model capacity의 한계로 보입니다.

t-SNE visualization (Figure 5)에서는 SFT T2L이 서로 다른 task에 대해 실제로 서로 다른 LoRA를 생성하고 있음을 확인할 수 있습니다.
의미적으로 유사한 task (예: MBPP와 HumanEval)끼리 cluster되는 것도 인상적이고요.

개인적으로 T2L에서 가장 흥미로웠던 건 Figure 4의 steerability 예시인데요.
같은 수학 문제에 대해 description의 뉘앙스를 바꾸면 (예: "mathematical reasoning" vs "programming skill") 서로 다른 reasoning path를 거쳐 답을 내는 것을 확인할 수 있습니다.
단순히 성능을 높이는 것 뿐 아니라, user가 description을 통해 LLM의 행동을 제어할 수 있다는 점이 T2L의 독특한 강점이라고 생각합니다.

3. Doc-to-LoRA

3.1. From T2L to D2L: What Changed?

T2L이 "task description → LoRA"였다면, D2L은 "document/context → LoRA"로 문제를 확장합니다.
T2L은 짧은 task description embedding을 입력으로 받았지만, D2L은 수천~수만 token 길이의 실제 document를 처리해야 하고요.
목표도 다릅니다. T2L은 task-specific capability를 부여하는 것이었다면, D2L은 specific knowledge를 LLM parameter에 internalize하는 것이 목표입니다.

핵심적인 차이를 정리하면 이렇습니다.
T2L은 external text encoder (gte-large-en-v1.5 등)로 task description을 embedding한 후 MLP-based hypernetwork에 넣었는데, D2L은 target LLM 자체의 intermediate layer activations를 입력으로 사용합니다.
아키텍처도 MLP에서 Perceiver-based cross-attention으로 바뀌었고요.
학습 objective 역시 SFT/reconstruction에서 context distillation (KL divergence) 기반으로 변경되었습니다.

이런 변화들이 왜 필요했는지는 D2L의 구조를 보면 자연스럽게 이해가 됩니다.

3.2. Architecture

D2L의 hypernetwork은 target LLM의 per-layer token activations를 입력으로 받습니다.
context $c$를 frozen target LLM에 통과시키면 $Z \in \mathbb{R}^{L \times N \times D}$를 얻을 수 있는데요.
여기서 $L$은 Transformer layer 수, $N$은 token 수, $D$는 hidden size입니다.

각 layer $l$에 대해, shared hypernetwork $h_\phi$가 이전 layer의 activations $Z_{l-1}$을 받아 해당 layer의 LoRA를 생성합니다.

$$h_\phi(Z_{l-1}) = \Delta W_l = B_l A_l$$

T2L과 달리 입력 길이가 가변적이기 때문에, Perceiver-style cross-attention을 사용하는 것이 핵심인데요.
$r$개의 learnable latent queries $Q_m \in \mathbb{R}^{r \times d_q}$가 $Z_{l-1}$에 cross-attend하여, variable-length input을 fixed-size output으로 mapping합니다.

$$U_l = \text{XAttn}(Q_m, K(Z_{l-1}), V(Z_{l-1})) \in \mathbb{R}^{r \times d_u}$$

이렇게 나온 latent vectors를 per-layer output head가 LoRA의 A, B matrix로 변환합니다.

Long-Context Composition via Chunking 메커니즘이 D2L의 또 다른 핵심인데요.
긴 context를 $K$개의 chunk로 나누어 각각 독립적으로 hypernetwork를 통과시킨 후, rank dimension을 따라 concatenate합니다.

$$A_l = \begin{bmatrix} A_l^{(1)} \\ \vdots \\ A_l^{(K)} \end{bmatrix}, \quad B_l = [B_l^{(1)} \cdots B_l^{(K)}]$$

결과적으로 총 rank는 $r \cdot K$가 됩니다.
이 방식의 장점은 hypernetwork의 output shape을 바꾸지 않으면서도, 긴 context에 대해 자연스럽게 higher-rank LoRA를 만들 수 있다는 것입니다.
이 덕분에 training 때 최대 256 token만 봤는데도, inference 때 32K+ token의 document를 처리할 수 있게 됩니다.

3.3. Meta-Training Objective

D2L의 학습 objective는 context distillation을 meta-learning하는 것입니다.
"teacher" (context가 있는 LLM)와 "student" (context 없이 D2L이 생성한 LoRA만 가진 LLM) 사이의 KL divergence를 최소화합니다.

$$\min_\phi \mathbb{E}_{(c, D_c) \sim D} \mathbb{E}_{(x,y) \sim D_c} \text{KL}\big(p_\theta(y|x,c) \| p_{\theta + H_\phi(c)}(y|x)\big)$$

여기서 $c$는 context, $x$는 query, $y$는 teacher가 생성한 response입니다.

이 objective가 T2L의 SFT loss와 다른 점은, ground-truth token을 직접 맞추는 게 아니라 teacher distribution 전체를 matching한다는 것인데요.
Appendix의 ablation에서도 KL loss가 next-token prediction (NTP) loss보다 더 나은 generalization을 보여줬습니다.
저자들은 KL distillation이 teacher의 uncertainty와 alternative modes까지 전달해주기 때문이라고 해석하고 있고, 저도 이 설명이 타당하다고 봅니다.

training data는 FineWeb-Edu에서 추출한 약 900M token 분량의 context에 대해, gemma-3-12b-it로 context-grounded query를 생성하고, gemma-2-2b-it (base model)로 self-response를 만드는 파이프라인을 사용했습니다.
총 약 1억 개의 unique context-query-response triplet이 만들어졌고요.

D2L의 hypernetwork은 309M trainable parameters로, 8개의 cross-attention block (self-attention 없음)으로 구성되어 있습니다.
생성되는 LoRA는 rank-8이고, MLP block의 "down projection" layer에만 적용됩니다.
T2L이 attention의 Q, V projection에 적용한 것과는 target module이 다른데, 이 선택의 이유가 논문에서 명시적으로 설명되지 않은 건 약간 아쉬운 부분입니다.

3.4. Experiments

3.4.1. Needle-in-a-Haystack (NIAH)

D2L의 internalization 능력을 가장 직관적으로 보여주는 실험인데요.
haystack 안에 숨겨진 4자리 숫자 (needle)를 찾는 task에서, D2L은 context를 LoRA로 internalize한 후, context 없이 query만으로 needle을 정확히 retrieval해야 합니다.

결과가 꽤 인상적입니다.
D2L은 training 때 최대 256 token (8 chunks)만 봤음에도, 8K token까지 base model with context와 동일한 perfect accuracy를 달성했습니다.
더 놀라운 건, base model의 context window (8K)를 넘어선 32K+ token에서도 near-perfect accuracy를 유지했다는 점인데요.
base model은 8K를 넘어가면 성능이 급격히 떨어지는 반면, D2L은 약 40K token (40 chunks)까지 높은 성능을 보여줬습니다.

memory 측면에서도 이점이 큰데요.
128K token haystack 기준으로 base model은 12GB 이상의 추가 memory가 필요한 반면, D2L은 50MB 미만으로 일정하게 유지됩니다.

물론 이건 synthetic task이고, needle이 하나인 비교적 단순한 설정이라는 점은 감안해야 합니다.
하지만 256 token으로 학습한 모델이 32K+ token에서 작동한다는 사실 자체가, chunking 메커니즘의 compositionality가 실제로 동작한다는 강력한 evidence라고 생각합니다.

3.4.2. Reading Comprehension QA

SQuAD, DROP, ROPES 세 가지 reading comprehension benchmark에서의 결과입니다.

D2L은 모든 in-parameter knowledge baseline을 능가했는데요.
SQuAD에서 ICL upper bound 대비 82.5%의 relative performance를 달성했습니다.
이건 LLMLingua-2로 context를 40%로 압축한 것과 비슷한 수준인데, D2L은 context를 아예 제거한다는 점에서 더 의미가 있습니다.

하지만 D2L의 진짜 강점은 efficiency에 있습니다.
CD (oracle)이 약 40초, CD (generated queries)가 100초 이상 걸리는 반면, D2L은 batched mode에서 0.2초, iterative mode에서 0.5초 정도면 internalization이 완료됩니다.
memory도 D2L이 2GB 미만인 반면, CD (generated queries)는 40GB 이상을 사용하고요.

T2L도 instant update가 가능하긴 하지만, task description 기반 SFT 데이터로 학습된 특성상 knowledge internalization에는 효과적이지 못했습니다.
D2L 논문에서 T2L을 직접 baseline으로 비교하고 있는데, T2L의 성능이 base model without context와 크게 다르지 않은 걸 보면, 같은 hypernetwork 기반이라도 training objective와 architecture design이 얼마나 중요한지 알 수 있습니다.

3.4.3. Long-Context QA

2WikiMultihopQA, MultiFieldQA, QASPER 세 가지 long-document QA benchmark에서의 결과입니다.
test sample의 길이가 최대 32K token까지 가는데, D2L의 training data는 최대 2,344 token이었다는 점이 중요합니다.

D2L은 training 때 한 번도 보지 못한 긴 문서에 대해서도 효과적으로 internalize했습니다.
2WikiMultihopQA에서 CD (oracle) 대비 거의 비슷한 수준의 성능을 보여줬고요 (0.857 vs 0.901).
CD (5 generated queries)가 79GB의 VRAM을 사용하는 반면, D2L (iterative)은 3.8GB만 사용하면서도 더 높은 성능을 달성했습니다.

재밌는 발견 중 하나는, D2L로 internalize한 후에 truncated context를 다시 제공하면 성능이 오히려 약간 올라가는 현상인데요.
저자들은 이를 lost-in-the-middle 현상과 attention noise와 연결지어 해석합니다.
D2L이 핵심 정보를 parameter에 넣어놓으면, context에서의 attention noise가 줄어들어 오히려 도움이 된다는 거죠.
이 해석이 완전히 검증된 건 아니지만, 흥미로운 관찰이라고 생각합니다.

3.4.4. Zero-Shot Visual Information Transfer

D2L의 context encoder를 VLM (gemma-3-4b-it)으로 바꿔서, 이미지 정보를 text-only LLM (gemma-2-2b-it)의 LoRA로 변환하는 실험입니다.
D2L은 training 때 이미지를 한 번도 본 적이 없음에도 불구하고, Imagenette (10-class subset of ImageNet)에서 75.03%의 accuracy를 달성했습니다.
random guess가 10%인 걸 감안하면, 시각 정보가 실제로 LoRA parameter를 통해 전달되고 있다는 뜻입니다.

물론 text QA 성능은 LLM encoder 대비 떨어지긴 합니다 (SQuAD: 0.814 → 0.705).
하지만 modality가 다른 encoder에서 text-only model로 정보를 전달할 수 있다는 가능성 자체가 의미 있다고 봅니다.
향후 더 정교한 architecture나 cross-modal training이 추가되면 어떤 결과가 나올지 궁금합니다.

3.5. Analyses

Knowledge Interference 실험에서는 D2L의 한계도 확인됩니다.
internalize한 내용과 무관한 query를 던졌을 때, D2L이 적용된 모델의 성능이 base model보다 오히려 떨어지는데요.
저자들은 D2L이 "이후 query가 항상 internalized knowledge와 관련될 것"이라는 strong prior를 학습했을 수 있다고 분석합니다.
training data가 항상 context-related query만 포함하다 보니 생긴 bias인 것 같은데, 실제 배포 환경에서는 irrelevant query도 섞여 들어올 수 있으니 해결이 필요한 부분입니다.

Query Internalization 실험도 흥미로운데요.
document 대신 query를 internalize하는, 즉 training 때와 완전히 반대되는 extreme generalization test입니다.
성능이 떨어지긴 하지만 no-context baseline (0.185)보다 훨씬 높은 recall (0.587)을 보여서, D2L이 단순히 "document를 외우는" 것이 아니라 어느 정도 generic한 information mapping을 학습했다는 것을 시사합니다.

4. Conclusion and Discussion

두 논문을 함께 읽어보니, hypernetwork 기반 instant LoRA generation이라는 아이디어가 어떻게 발전해왔는지 흐름이 잘 보입니다.

T2L은 "task description → LoRA"라는 간결하면서도 강력한 프레임워크를 제시했고, 세 가지 architecture variant (L/M/S)와 두 가지 training scheme (reconstruction/SFT)에 대한 체계적인 ablation이 인상적이었습니다.
특히 reconstruction training이 왜 generalization에 실패하는지를 LoRA weight space 분석으로 설명한 부분이 논문의 설득력을 높여주는 좋은 분석이었다고 생각합니다.

D2L은 T2L의 프레임워크를 context internalization으로 자연스럽게 확장하면서, 몇 가지 핵심적인 개선을 도입했습니다.
Perceiver-based architecture로 variable-length input을 처리하고, chunking으로 long context를 composable하게 만들고, KL-based CD objective로 더 robust한 학습을 가능하게 한 것인데요.
결과적으로 256 token으로 학습해서 32K+ token에서 동작하는 놀라운 generalization을 보여줬습니다.

두 논문 모두 practical efficiency를 강조하는데, 이 점이 단순히 academic contribution을 넘어서 실제 deployment 가능성을 열어준다고 봅니다.
T2L의 4x FLOPs 절감이나, D2L의 sub-second internalization + minimal memory usage는 실제 서비스 환경에서 큰 차이를 만들 수 있는 수치고요.

아쉬운 점도 있습니다.
T2L은 아직 task-specific LoRA의 성능을 zero-shot으로 완전히 따라잡지는 못했고, task description의 quality에 민감하다는 한계가 있습니다.
D2L은 knowledge interference 문제가 있고, meta-training 자체가 여전히 비싼 과정 (8 H200 GPU에서 5일)이라는 점이 걸립니다.
또한 D2L이 새로운 target LLM마다 hypernetwork를 재학습해야 한다는 것도 scalability 측면에서 고려할 부분이고요.

그래도 전체적으로, "자연어만으로 LLM을 즉시 adaptation"한다는 방향 자체는 매우 매력적입니다.
특히 D2L의 VLM → LLM transfer 실험 같은 건, hypernetwork가 단순히 text information만 전달하는 게 아니라 cross-modal knowledge transfer의 도구가 될 수 있음을 보여주는 것 같아서 향후 발전이 기대됩니다.
inference-time training이나 continual learning, personalization 쪽으로 확장될 가능성이 충분해 보이고, 이 방향의 후속 연구가 어떻게 전개될지 지켜보면 좋을 것 같습니다.

<Agent, Personalization> Learning Personalized Agents from Human Feedback (2026.02)

chanmuzi — Mon, 23 Feb 2026 03:04:32 +0900

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다.

혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ‍♂️

[Meta Superintelligence Labs, Princeton University, Duke University]
- static data에 의존하지 않고 online interaction을 통해 continual personalization을 수행하는 PAHF 프레임워크 제안
- pre-action clarification과 post-action feedback이라는 dual feedback channel을 활용하여 explicit per-user memory를 업데이트
- embodied manipulation과 online shopping 두 도메인에서 four-phase evaluation protocol로 평가
- 이론적 분석을 통해 두 feedback channel의 complementarity를 증명하고, 실험적으로도 PAHF가 single-channel baseline 대비 일관되게 우수한 성능을 보여줌

출처 : https://arxiv.org/abs/2602.16173

Learning Personalized Agents from Human Feedback

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user p

arxiv.org

1. Introduction

요즘 LLM 기반 AI agent가 디지털 어시스턴트부터 embodied robot까지 다양한 분야에서 활용되고 있는데요.

이런 agent들이 개별 사용자의 복잡하고 idiosyncratic한 선호도에 맞춰 행동하는 것은 여전히 어려운 문제입니다.
기존 personalized assistant 연구들은 대부분 static data에 의존해왔습니다. historical interaction log로부터 implicit preference를 학습하거나, 미리 정의된 user profile을 agent memory에 넣어두는 방식이었는데요.

이런 접근법은 세 가지 핵심 한계가 있습니다.

(1) 새로운 사용자에 대해 즉시 적응할 수 없고 (profile이나 interaction history가 없으니까요),
(2) real-time corrective feedback으로부터 학습할 수 없으며,
(3) 사용자의 선호도가 시간이 지나면서 변화하는 non-stationarity를 처리하지 못합니다.

이 논문에서는 이런 문제들을 해결하기 위해 Personalized Agents from Human Feedback (PAHF) 프레임워크를 제안합니다.

PAHF는 static data assumption에서 벗어나 interaction 자체를 primary learning signal로 활용하고, explicit per-user memory를 pre-action과 post-action feedback을 통해 지속적으로 업데이트하는 방식입니다.

Figure 1은 기존 static personalization과 이 논문에서 제안하는 continual personalization의 차이를 보여줍니다.

기존에는 offline으로 한 번 user profile을 만들어 놓고 deployment 때 읽기만 했다면, PAHF는 online interaction 과정에서 memory를 읽고 쓰는 것을 동시에 수행합니다.

2. Approach

2.1. Formalizing Continual Personalization

PAHF는 continual personalization을 online learning 문제로 formalization합니다.

매 interaction $t$에서 사용자는 latent preference state $M^*_t$를 가지고 있고, instruction $I_t$를 내립니다.

Agent는 explicit preference memory $\hat{M}_t$를 유지하면서 action $a_t$를 선택하는데요. 목표는 cumulative personalization error $\sum_{t=1}^{T} L_t$를 최소화하는 것입니다.

여기서 $L_t = \mathbf{1}[a_t \neq a^*_t]$는 0-1 loss입니다.

이 문제가 어려운 이유는 agent의 preference memory $\hat{M}_t$가 두 가지 유형의 error에 취약하기 때문입니다.

- Partial Observability: 사용자의 true state $M^*_t$가 hidden이라서 memory가 incomplete할 수 있습니다. 새로운 사용자의 경우 $\hat{M}_t = \emptyset$인 상황이죠.
- Non-Stationarity: 사용자의 preference가 시간에 따라 변할 수 있습니다. 이른바 "preference drift"인데, agent가 outdated된 belief를 자신있게 가지고 있는 miscalibration 상태가 됩니다.

2.2. PAHF Framework

PAHF는 이 online personalization 문제를 해결하기 위한 three-step interactive loop을 제안합니다.

첫 번째 단계는 Pre-Action Interaction입니다.

Agent가 instruction $I_t$를 받으면 먼저 memory $\hat{M}_t$에서 관련 preference를 검색합니다.

만약 관련 정보가 없으면 (예: 새로운 사용자) 사용자에게 proactively clarification question을 던집니다.

이 feedback은 action 전에 memory에 기록됩니다:

$$\hat{M}'_t = F^{pre}_{update}(\hat{M}_t, I_t, O_t, m_t, q_t, f^{pre}_t)$$

두 번째 단계는 Action Execution입니다. Agent의 action policy $\pi_{act}$가 모든 available information을 종합하여 최종 action을 결정합니다:

$$a_t = \pi_{act}(I_t, O_t, m_t, q_t, f^{pre}_t)$$

예를 들어 "Bring my favorite drink"이라는 task에서, memory에 "favorite drink is Coke"라는 정보가 있으면 바로 Coke를 집고, 없으면 pre-action interaction에서 얻은 답변을 활용합니다.

세 번째이자 가장 핵심적인 단계는 Post-Action Feedback Integration입니다.

Agent의 action이 틀렸을 때 사용자가 corrective feedback을 제공하면, 이를 memory에 반영합니다:

$$\hat{M}_{t+1} = F^{post}_{update}(\hat{M}'_t, I_t, m_t, q_t, f^{pre}_t, a_t, f^{post}_t)$$

개인적으로 이 세 단계의 설계가 꽤 직관적이라고 생각합니다. Pre-action은 "모르는 걸 물어보는 것"이고, post-action은 "틀린 걸 고치는 것"인데, 이 두 가지가 complementary하다는 점을 명확하게 짚어준 것이 이 논문의 좋은 점인 것 같습니다.

2.3. Theoretical Justification

논문에서는 두 feedback channel의 necessity를 이론적으로 증명합니다. 핵심적인 결과만 간단히 요약하자면:

Proposition 1은 post-action feedback의 필요성을 보여줍니다.

Preference drift가 있는 상황(최대 $K$번 switch)에서, post-action feedback을 사용하지 않는 어떤 policy든 $\Omega(T)$의 expected mistake를 냅니다.

반면 post-action update를 수행하면 $O(K)$로 줄일 수 있습니다.

직관적으로 생각해보면, drift를 감지할 방법이 없으니 stale preference를 계속 사용하게 되는 것이죠.

Proposition 2는 pre-action feedback의 필요성을 보여줍니다.

Ambiguous round의 비율이 $\gamma > 0$일 때, pre-action clarification 없이는 $\Omega(\gamma T)$의 error가 발생하지만, $k$개의 balanced $m$-ary question을 던지면 $O(\gamma T \cdot m^{-k})$로 줄일 수 있습니다.

최종적으로 Theorem 1에서 두 channel을 모두 사용하는 PAHF policy의 dynamic regret bound를 제시합니다:

$$E[R_T] = O(K + \gamma T m^{-k})$$

$k = \Theta(\log_m T)$로 설정하면 $E[R_T] = O(K + \gamma)$가 되어, preference switch 횟수와 ambiguity rate에만 의존하는 tight한 bound를 얻습니다.

2.4. Implementation

Agent는 ReAct framework 기반으로 GPT-4o를 사용합니다.

Memory backend로는 SQLite note store와 FAISS-based vector index 두 가지를 구현했는데, 둘 다 동일한 retrieval semantics를 제공합니다.

논문의 목적이 새로운 memory architecture를 제안하는 것이 아니라 feedback channel의 효과를 검증하는 것이기 때문에 의도적으로 simple한 design을 선택했다고 합니다.

Memory interaction은 reading(retrieval)과 writing(update) 두 축으로 구성됩니다.

Reading은 standard RAG pipeline을 따르고, writing은 salience detection → summarization → integration (update vs. add 판단)의 multi-step process입니다.

개인적으로 이 부분이 논문의 contribution을 명확하게 하는 좋은 선택이었다고 생각합니다.

Memory architecture에 신경 쓰기 시작하면 feedback channel의 효과를 isolate하기 어려워지니까요.

비교 대상으로는 네 가지 setting을 사용합니다:
(i) No Memory (persistent store 없음),
(ii) Pre-action Only (clarification만 허용, post-action update 없음),
(iii) Post-action Only (clarification 없이 corrective feedback으로만 학습),
(iv) PAHF (두 channel 모두 사용).

3. Experiments

3.1. Evaluation Domains

두 개의 도메인에서 평가를 수행합니다.

Embodied Manipulation Domain은 일상적인 indoor mobile-manipulation task를 모델링합니다.

40명의 user persona가 있고, 각 persona는 context-dependent한 preference를 가집니다.

예를 들어 "Alex"는 보통 black coffee를 좋아하지만, drowsy한 상태에서는 herbal tea를 선호하는 식입니다.

의도적으로 idiosyncratic하고 unconventional한 preference를 설계해서, generic commonsense로는 정답을 맞출 수 없게 했습니다.

Online Shopping Domain은 자연어 purchase request를 처리하는 task입니다.

Agent가 세 개의 product candidate 중 하나를 선택하거나 abstain해야 합니다.

특이한 점은 option들이 adversarially 구성된 "near-miss"라는 것인데, 대부분의 feature는 preferred하지만 하나의 "poison pill" feature가 있어서 fine-grained reasoning이 필요합니다.

이 도메인이 embodied보다 훨씬 challenging하다고 합니다.

3.2. Evaluation Protocol

Four-phase evaluation protocol을 설계했습니다:
- Phase 1 (Initial Learning): empty memory에서 시작하여 initial preference를 학습
- Phase 2 (Initial Personalization Test): Phase 1에서 학습한 memory로 새로운 scenario에서 평가 (feedback 없음)
- Phase 3 (Adaptation to Drift): persona를 바꿔서 preference drift 상황을 만들고 재학습
- Phase 4 (Adapted Personalization Test): Phase 3에서 업데이트된 memory로 평가

이 protocol이 initial learning과 adaptation to drift를 깔끔하게 분리해서 측정할 수 있게 해준다는 점에서 잘 설계되었다고 생각합니다.

3.3. Results

결과를 보면 몇 가지 핵심 패턴이 있습니다.

첫째, pre-action feedback은 initial personalization error를 방지합니다.

Phase 1에서 Pre-action Only와 PAHF가 첫 번째 interaction부터 훨씬 높은 success rate를 보여줍니다.

행동하기 전에 물어보는 것만으로도 초기 실수를 크게 줄일 수 있다는 것이죠.

둘째, pre-action feedback만으로는 preference drift에 취약합니다.

Phase 3에서 Pre-action Only agent는 이미 confident한 note가 memory에 있기 때문에 더 이상 ambiguity를 느끼지 못하고 clarification question을 하지 않습니다.

즉, 자기가 틀렸다는 걸 모르는 상태가 되는 거죠.

이게 개인적으로 가장 인상적인 발견이었는데요, "자신있게 틀리는" agent의 문제를 pre-action만으로는 해결할 수 없다는 점이 명확하게 드러납니다.

셋째, post-action feedback은 빠른 adaptation을 가능하게 합니다.

Post-action Only와 PAHF 모두 Phase 3에서 iteration이 진행됨에 따라 success rate가 급격히 상승합니다.

하지만 post-action만 쓰면 처음에 틀려봐야 배울 수 있으니 initial error가 크다는 단점이 있습니다.

Table 1의 evaluation success rate를 보면, PAHF가 거의 모든 phase와 domain에서 가장 높은 성능을 달성합니다.

Embodied domain에서 Phase 2: 70.5%, Phase 4: 68.8%, Shopping domain에서 Phase 2: 41.3%, Phase 4: 70.3%를 기록했습니다.

Shopping domain의 Phase 2 성능이 상대적으로 낮은 것이 눈에 띄는데, adversarial near-miss 설계 때문에 fine-grained preference reasoning이 훨씬 어렵기 때문입니다.

4. Conclusion and Discussion

논문에서는 PAHF가 pre-action과 post-action feedback의 complementary한 장점을 결합하여, static personalization의 한계를 극복했다고 결론짓고 있습니다.

개인적인 감상을 말씀드리자면, 이 논문의 가장 큰 강점은 문제 설정의 명확함이라고 생각합니다. "새로운 사용자에게 어떻게 적응할 것인가"와 "선호도가 바뀌었을 때 어떻게 대응할 것인가"라는 두 가지 핵심 질문을 분리하고, 각각에 대응하는 feedback channel을 제안한 뒤, 이론과 실험 모두에서 그 complementarity를 보여주는 구조가 깔끔합니다.

한편으로 아쉬운 점도 있습니다. 먼저 human feedback이 LLM simulation으로 생성된다는 점이 실제 deployment와의 gap을 만들 수 있을 것 같습니다.

실제 사용자의 feedback은 noisy하고 inconsistent할 수 있는데, 이 부분은 limitation에서도 언급하고 있긴 합니다.

또한 memory design을 의도적으로 simple하게 가져간 것은 좋은 선택이지만, 실제 production 환경에서는 memory가 커지면서 retrieval quality나 scalability 문제가 생길 수 있을 것 같습니다.

그리고 online shopping domain에서 전반적으로 성능이 낮다는 점 (Phase 2에서 PAHF도 41.3%)도 눈여겨볼 부분입니다.

논문에서는 의도적으로 어렵게 설계했다고 하지만, 이 수준의 성능으로는 실용적 활용이 쉽지 않을 것 같고, 이 gap을 어떻게 줄여갈 수 있을지가 향후 연구의 중요한 방향이 될 것 같습니다.

전체적으로 personalization을 continual learning 관점에서 접근하고, 단순히 시스템을 제안하는 것에 그치지 않고 이론적 근거까지 제시한 점이 좋았습니다. Explicit memory + dual feedback channel이라는 조합이 앞으로 personalized agent 연구의 하나의 baseline이 될 수 있지 않을까 싶습니다.

꽤 늦은 2025년 회고

chanmuzi — Thu, 29 Jan 2026 02:30:30 +0900

0. 회고

네이버에서부터 블로그를 시작한 지도 어느덧 거의 4년이 다 되어간다.

기록하는 것 자체도 좋아하고 기록물이 누군가에게 공유될 수 있다는 것도 굉장히 큰 의미를 가졌었다.

처음에는 이 업계/분야에 진입하면서 나의 노력과 열정이 누군가(아마 인사 담당자)에게 잘 전달될 수 있도록 하는 것에 집중했다.

시간이 지나면 기술 블로그로 보여줄 수 있겠지? 아마 가산점이 되지 않을까?,라고 생각하며.

좀 더 의미가 있는 글을 쓰기 시작했을 땐 아마 알고리즘 리뷰를 똑바로 작성하자고 마음 먹었을 때인 것 같다.

단순히 학습하는 내용을 남기는 글이 크게 의미가 없고, 내가 블로그를 운영하는 이유는 어쨌든 다른 누군가가 글을 보게 하기 위함이었으니 목적에 적합한 글을 작성하려고 생각했던 것 같다.

(과거에는 잘쓰인 백준 리뷰 포스팅을 찾기 위해 블로그를 마구 뒤져보던 기억이 있는데, 글을 좀 똑바로 써줄 수는 없는 걸까, 답답했던 마음이 나는 글을 제대로 써야겠다 생각하는 동기가 되었다)

그럼에도 논문 리뷰는 나에게 좀 특별한 의미가 있었다.

내가 이 분야를 진짜 좋아해야지만 할 수 있는 일이었고, 이렇게 공부하고 기록함으로써 많이 성장할 수 있었다.

사람들도 꾸준히 많은 양의 논문 리뷰를 했다는 걸 되게 신기해하긴 했다.

(1년 간 100여 편 이상을 직접 리뷰했다)

어느덧 3년차가 되어버린 지금은 그럴 여유가 크게 없다.

하고 있는 업무와 맞닿아 있지 않은 곳들에 시간을 많이 들이기도 어렵고,

그렇게 노력함으로써 얻을 수 있는 것보다 다른 것을 배움으로써 얻는 게 많은 듯하다.

글을 써본 사람들은 알겠지만 하나의 글로 정리하고 다듬는 것만으로도 엄청난 '시간'이 요구되기 때문이다.

그래서 요즘은 정말 가끔 한 편씩, 너무 딥하지 않은 글을 쓰는 것 정도가 좋다.

재밌는 건 의외로(?) 생각보다 다양한 곳에서 블로그를 봤다는 이야기를 종종 듣게 된다는 점이다.

지인의 연구실 인턴이, 회사 옆자리 직원이, ... 등등 '누가 찬무지 블로그 보고 있더라'는 이야기를 가끔 듣곤 한다.

요즘같이 똑똑한 AI 서비스가 많은 세상에도 의외로 수요가 있는 글들이 있다는 건 되게 재밌는 현상이라고 느꼈다.

논문은 NotebookLM으로 보면 되고,, 취준 후기 같은 건 직접적인 도움이 되기 어려울 수도 있는데,,

여하튼 블로그를 n년째 운영하는 입장에서는 그런 목격담이나 간증들 덕분에 주기적으로 글을 쓰는 게 나름의 책무(?)로 느껴지는 순간들도 있고,

또 지난 한 해를 돌아보지 않고서는 너무 아쉬울 것 같은 생각들이 많아 간만의 회고를 작성해 보게 됐다.

1. 두 개의 큰 프로젝트.

지난 25년엔 업무적으로 크게 두 개의 프로젝트를 수행했다.

은행에 솔라 기반 RAG 플랫폼 구축하기 (상주 프로젝트)
업스테이지 Enterprise LLM 플랫폼 구축하기

얼핏 보면 굉장히 비슷한 프로젝트들인 것 같지만 실제로는 엄청난 차이가 있다.

상주 프로젝트는 정말 쉽지 않았다.

고객사 지하 개발실로 8개월 출퇴근을 하게 됐는데,,

출퇴근을 하는 건 당연한 것 아닌가, 배가 불렀다,, 이렇게 생각할 수도 있겠지만,

사실 업스테이지는 상주 프로젝트를 하지 않는 게 원칙이고, 나는 심지어 정규직 전환 1일차에 상주 프로젝트를 담당하게 된 불운의 케이스였다.

(큰 프로젝트라 레퍼런스를 확보하기 위해 어쩔 수 없다는 이유로)

누군가는 해야 된다면 내가 할 수도 있다고 생각했으나,

천장도 낮고 바깥 풍경도 볼 수 없는 고객사 지하 개발실에 갇혀 지내는 것만으로 큰 스트레스가 되었다.

게다가 이 프로젝트는 파트너사와 함께 수행했는데, 구도가 정말 특이했다.

업스테이지는 모델을 공급하고 파트너사는 RAG와 플랫폼을 책임지고 개발하는 입장이었는데,

RAG라는 것 자체가 모델 성능에 크게 의존할 수 없다보니 결국엔 RAG를 평가하고 개선하는 데 많은 시간을 쓰게 되었다.

너무 슬펐던 것은

폐쇄망 환경에서 ChatGPT는 고사하고 인터넷 검색도 할 수 없는 컴퓨터로 작업을 해야 했다는 점
실제로 성능 개선을 위해 할 수 있는 일이라고는 파이프라인 제안과 프롬프트 개선밖에 없었다는 점
그래도 회사가 중요하다며 업스테이지 내부 회의도 참석해야 하고 자산으로 남기려고 노력해야 했던 점

등이다.

그래서 굉장히 규모가 큰 프로젝트에 수많은 인력이 투입되었음에도 불구하고 (엔지니어 입장에서) 전혀 만족스럽지 않은 결과물이라는 생각이 들었고, 빠르게 변하는 바깥(고객사 바깥 현실 세계) 기준으로는 이미 한참을 뒤처진 기술들만 억지 구현했다는 생각이 떠나지 않았다.

퇴근 후에는 최신 동향을 살펴보는 내 모습과, 주피터 노트북으로 프롬프트를 깎는 프로젝트 내의 내 모습이 너무 대비되어서 힘들었다.

그런데 이런 상황을 정확히 알 수 없는 사람들 입장에서는 그냥 RAG 플랫폼 구축을 잘했나보다 하고 마무리되었던 것 같다.

제한된 환경이기 때문에 경험할 수 있고 배울 수 있던 점도 많았지만 그렇지 않았던 점이 더 많아서 슬펐는데,

그 경험을 우리가 앞으로 만들고자 하는 것들에 잘 녹일 수 있으면 좋겠다는 의견들을 많이 전달받아서 더 슬퍼졌다.

나는 유의미한 경험을 하지 못했다고 느꼈기 때문이다.

이어진 프로젝트가 그랬는데, 지금 생각해 보면 이전의 경험에서 배운 것들을 다음에 잘 녹여낸 것은 맞는 것 같다.

근데 이건 순전히 개인 능력치로 커버한 것 같다는 생각이 든다.

간단한 예를 들어보자면,

'RAG 프로젝트했는데, 그래서 어떤 DB 써야 되는지 의견 주세요'

와 같은 상황이 있었다.

하지만 이전 프로젝트 수행 당시 플랫폼, 데이터 적재, DB 등 모든 작업은 파트너사가 수행했기 때문에 내가 알 수 있는 지식 범주에 속하는 내용들이 아니었다.

그래서 결국 책임만 생겨서 리서치해보고 실행해 보고 판단하는 과정들이 있었는데 이것도 엄청 부담스러운 일이 아닐 수 없었다.

특히나 이런 작업을 당시 함께 근무하던 인턴 두 분과 같이 했어야 하는데, 두 분의 업무도 세팅해 드리면서 내 할 일도 챙기려니 여간 정신이 없었던 게 아니다.

그래도 덕분에 많이 성장할 수 있었다.

(다만 이런 걸로 좋았다고 위로하거나 가스라이팅 당하고 싶지는 않다)

모든 걸 주체적으로 찾아보고 테스트해보고 의사결정에 영향을 주고 직접 개발하는 과정은 확실히 많이 도움이 되었다.

개발 베이스가 없는 나로서는 그 과정이 너무 힘들었는데, 역시 절벽으로 던져지면 어떻게든 올라올 힘은 있었나 보다.

API를 만들어야 한다,, 는 말조차 전혀 이해가 되지 않던 상황에서 플랫폼에 연동 가능한 Agentic Pipeline을 설계하고 구축해야 했던 게 불과 몇 달 전이다.

그나마 다행이었던 것은 개발 쪽에 많은 경험과 탄탄한 지식을 갖춘 엔지니어가 동료로 존재해서 도움도, 피드백도 많이 받을 수 있었다는 점이다.

안 그래도 요즘 세상이 에이전트만 찾고 있는데 그 추세에 너무 동떨어지지 않은 것 같기도 하고, 또 언젠가는 이렇게 개발 지식들을 많이 습득해야겠다 생각했는데 업무를 통해 배우니 성장폭이 꽤 컸던 것 같다.

그리고 한 번 상주 프로젝트를 해서 그런지 재택 형태로 근무한다는 것, 업무에 필요한 도구나 기술들을 전폭적으로 지원받으며 뭔가를 만들어나갈 수 있다는 점도 엄청나게 만족스럽긴 하다.

우당탕탕 업무를 수행하다 보니 온전히 해결하지 못한 문제들도 많이 남아있지만,

앞으로 더 고도화하고 개선할 여지들을 고민할 수 있다는 것 자체가 즐거운 상황인 것 같다.

개인적으로는 on-premise 상황에 국한되지 않고 더 많은 방법론들과 기술들을 동원해서 문제를 잘 풀어보고 싶다는 생각이 요즘 많이 든다.

환경적인 특성상 on-premise로 가게 되면 follow-up 하는 것조차 너무 쉽지 않달까..

특히나 cloud 기준으로 눈높이를 가진 사람들을 상대해야 하는데 무기가 너무 적은 것 or 작은 것 같다.

지금은 그래도 기본적인 뼈대를 갖추어 방점을 한 번 찍어두었는데 앞으로가 (약간?) 기대된다.

어쨌든 너무 (정신적으로) 힘들었던 상반기와, 업무에 미친 듯이 몰입하고 성장해 온 하반기로 1년이 구분되는 듯한데,

써놓은 내용을 살펴보면 상당히 회의적인 스탠스이지만 실제로는 최근 업무 만족도가 높은 편이다.

지인들에게는 입이 닳도록 이야기했는데, 나는 일을 많이 하더라도 그 일이 의미가 있고 재밌으면 상관없다고 생각한다.

(페이가 동일하다는 전제에서 말이다)

실제로 상반기 프로젝트 수행할 때에 비하면 훨씬 더 많은 업무를 맡고 소화해 왔는데 정신적으로는 훨씬 더 편안하고 만족스러웠다.

그래서 앞으로는 확실히 더 재밌는 걸 하고 싶은 마음이랄까.

2. 연구

다른 포스팅에 밝힌 것처럼, 나는 한때 대학원 입시를 준비했었던 입장이었고 실제로 대학원 연구실에서 인턴 생활을 몇 개월 동안 잠시 했었다.

대학원에 진학하지 않고 지금 회사로 취업하는 걸 선택하게 되었는데, 좋은 선택이었다고 생각한다.

(여러 이유가 있긴 하지만 공개된 글로 남기기엔 좀 그래서,, 가장 큰 이유는 업계 변화가 너무 빠르기 때문이라고 해두자)

요즘에 와서는 대학원 생각이 없냐는 질문들을 종종 받는데,

'아직 열려있다'고 답변하고 있다.

지금까지 느꼈던 것들을 토대로는 카이스트 AI 대학원에 제일 가고 싶은 마음이고, 사실 원래도 그랬다.

(포스팅에 이런 내용을 구체적으로 포함하는 것은 처음인 것 같은데,,)

여하튼 지금도 연구에 대한 니즈는 내 마음에 크게 자리하고 있다.

그게 연구라는 이름으로 표현될 수 있을지 모르겠지만.

그런데 내 노력이 부족했던 것일 수도 있겠지만 실제로는 원하는 곳들에 진학하기가 굉장히 어렵다고 느꼈다.

이미 잘하는 사람들도 많고, 그 경쟁에서 내가 가진 차별점도 딱히 없는 상황이라.

그래서 시간이 지나는 동안 내가 연구하고 싶어서 뭘 그렇게 했냐 돌아보면 딱히 뭐가 없다는 걸 알게 됐다.

논문 보고 공부하는 건 그렇게 좋아하면서도 딱히 내가 해놓은 게 없다는 사실은 참 부끄러웠다.

직장 동료 중에 굉장히 진취적이고 행동력이 좋은 분이 있었는데, 그래서 목표하는 걸 위해 뭘 하고 있냐는 질문을 주셨고 거기에 답하지 못해 반성하게 되었던 게 기억에 많이 남는다.

안타깝게도 그걸 깨달은 이후엔 실제로 따로 할애할 시간적 여유가 많이 없었다. (핑계를 대자면 그렇다)

그런데 정말 핑계는 핑계일 뿐이라는 건, 직장 생활을 하면서 본인 꿈을 좇아 실현하는 사람들은 존재한다는 사실을 통해 알 수 있다.

지금까지의 나는 항상 자격 부족을 실행하지 않음의 근거로 스스로를 납득시키고자 했다.

수식도 잘 이해 못 하는데, 구현체도 직접 잘 못 만드는데, 논문도 써본 적 없는데, 생각하며 공부하기만 바빴던 것 같다.

근데 이렇게 살면서 나를 바꿀 수 있을까?

이번에야말로 나를 새로운 절벽에 던질 때가 아닐까 싶은 생각이 들었다.

그래서 절벽에 던졌고.

책임감 갖고 내 개인적인 시간을 쏟을 수 있는 상황들을 만들었는데, 정말 나이가 더 차기 전에 꿈을 위한 과감한 도전을 더 해보고 싶은 마음이다.

업무적으로도 이런 자아실현에 도움 되는 것들을 할 가능성이 존재하는데 이 기회를 잘 살려보려고 한다.

구체적인 것들은 private한 내용들이라 킵해두고,,

현재로서도 가장 관심 있는 분야만 기록해 두자면 'LLM 해석'이다.

왜 인공지능을 시작하게 되었느냐에 대해 설명할 때, '언어를 인문학적 관점에서 해석하다가 컴퓨터공학/통계적 관점에서 해석하게 된 것이 너무 재밌었다'고 많이 답변해 왔다.

이 답변과 가장 관련성이 높은 영역이 아닐까 싶다.

모델이 학습하는 과정을 100% 사람의 방식과 align 시킬 필요는 없겠으나,

우리는 꽤나 많은 것을 사람의 것과 비교하고 있다.

LLM이 (사람에 비해) 굉장히 비효율적인, 들이는 비용 대비 효용이 적은 결과물이라고 설명되는 이유도 사람이 굉장히 효율적으로 학습하고 성장할 수 있는 비교군이기 때문에 그러하다.

또한 한 번 학습된 모델이 추가적인 파라미터 업데이트 없이 knowledge cut-off 될 수밖에 없는 현상도 사람과 비교하여 한계로 지적된다.

프로그램이라는 관점에서는 유기체와 비교하는 것 자체가 굉장히 어이없는 상황이라고도 볼 수 있겠다.

나는 이러한 것들을 해석하기 위해서 LLM 내부의 연산 결과를 뜯어보고, 이를 조사(projection)함으로써 해석하고 비교하는 연구들이 굉장히 재밌다고 느껴진다.

이는 곧 평가와도 직결될 수 있다고 생각하는데 (특히 메타 인지 관련해서), 결국 평가를 통해 모델의 한계를 밝혀냄으로써 더 나은 발전의 실마리를 확보할 수 있다고도 생각한다.

여튼 굉장히 추상적이지만 이런 걸 정말 잘하는 기업의 대표주자가 Anthropic인 것 같고.. 그런 자취를 좇아 나만의 길을 만들어 제시해보고 싶은 마음이다.

3. 교육, 멘토링, 심사

업계 특성 때문인지, AI 업계의 열풍 덕분인지 다양한 기회들이 많이 주어지고 있다.

지금 근무하고 있는 업스테이지도 AI 교육의 큰 축을 담당하고 있기 때문에 재밌는 행사들에도 많이 참여할 기회를 얻고 있다.

지난해도 정확히 셀 수는 없지만 몇 차례 해커톤이나 프롬프톤 등의 심사를 맡게 되었다.

또 인공지능 자체가 워낙 핫하기 때문에 다양한 기회로 직무나 회사를 소개할 기회들이 있었다.

모교에서도 관련 행사를 열 때 감사하게도 기회를 주어서 후배들에게 이야기를 들려줄 수도 있었다.

다양한 자리에 참석하며 느낀 점도 많다.

사실 처음에는 그런 기회가 엄청 부담스럽기도 했다.

내 연차가 높은 것도 아니고, 굉장히 뛰어난 실력이나 역량을 갖추고 있지도 않아서 다른 분들에게 좋은 영향을 줄 수 있을까 걱정이 되었기 때문이다.

확실히 열정이 많은 사람들이 모인 곳에 가면 더욱더 그런 생각이 든다.

한 가지 기억에 굉장히 잘 남아있는 에피소드가 있다.

정션아시아 해커톤에 심사위원으로 참석했을 때다.

지난여름 포항에서 2박 3일 동안 치러진 해커톤에는 다양한 유형의 참가자들이 있었고 내가 생각지도 못한 결과물들을 제시해 줘서 깜짝 놀랐던 기억이 난다.

사실 기업 주관/후원의 해커톤에서는 다양한 결과물들이 나오기 쉽지 않다.

해당 기업이 제시한 주제를 보고 그 기업을 만족시킬 수 있는 것들이 뭔지 고민해야 되기 때문이다.

그래서 보통은 '거기서 거기인' 결과물들이 나오는 경우가 많고.

근데 이 해커톤은 AI만을 위해 모인 사람들만 참석한 게 아니고 각자의 포지션과 도메인이 다양했다.

덕분에 여러 해커톤을 다녀보면서도 미처 생각하지 못했던 다양한 도메인의 유즈케이스들도 접하고,

정말 빠른 시간 안에 완성도 높은 프로토타입을 제시하며 좋은 성과를 가져간 팀들도 구경할 수 있었다.

(참고로 우리 회사 트랙에 참여해 좋은 성적을 받은 팀이 최종 1등을 달성하며 아시아 1위가 되었다)

이를 보면서 앞으로 내 커리어에 대해서도 더 많이 고민하게 되고 (설자리가 없어진..;;) 다른 사람들의 열정을 보면서 자극도 많이 받을 수 있었다.

한편 아쉬움을 남겨주는 분들도 없었던 건 아니다.

다른 것보다 가장 답답한 건 '본인이 하고 싶은 것조차 정의가 되어 있지 않은 상태에서 질문'을 받는 상황이었다.

예를 들면 이렇다.

'인공지능 쪽으로 취업하려면 석사가 꼭 필요하다는데 맞나요?'
'기업에서 석사한테 기대하는 역량은 무엇인가요?'

나도 한때 답을 너무나도 알고 싶었던 질문들이다.

그런데 이런 질문은 사실 아예 의미가 없다.

본인이 뭘 하고 싶은지 정해지지 않은 상태에서는.

당연한 이야기 아닐까?

내가 앞으로 순수 개발 영역만 다루거나 프로젝트 매니징을 할 거라면 석사 학위는 필요 없을 것이고, (요구하는 회사도 있겠지만 당연히)

모델을 발전시키기 위한 코어 연구를 하고 싶다면 석사 이상의 학위가 필요하지 않을까?

또한 포지션뿐만 아니라 기업 유형에 따라서도 천차만별인데 어떻게 답변할 수 있을까?

이런 건 요즘 유행하는 말로 'Context Engineering' 능력과도 관련이 있는 것 같다.

답변 주체가 알아야 할 관련 정보들을 정돈된 형태로 제공함으로써 질문자가 진정으로 원하는 고품질 답변을 얻을 수 있어야 한달까.

(너무 막막해서 질문해 왔던 분들에게는 사과의 말씀을 드립니다.. 잘 모를 땐 그럴 수 있다고 생각하지만, 석사하고 있는 정도의 분들은 질문도 달라야 된다고 생각해서요)

지금도 내가 교육적인 활동이나 기회들에 관심이 많은 건 돈 때문이 아니다.

이 블로그글을 쓰는 것도 그렇다.

(블로그에 붙여놓은 광고도 의미가 0에 수렴한다는 걸 티스토리로 다 전환한 한참 뒤에야 깨달았다. 네이버 블로그가 좋았다..)

비전공자로서 취업하기 위해 정보 획득하는 과정이 너무 어려워 도움의 손길이 간절했고 그때의 내가 찾아보고 도움 요청해 볼 수 있는 건 블로거들 정도뿐이었다.

뭔가를 더 많이 알았다면 링크드인 계정이라도 만들어 이리저리 사람을 찾아봤을 수도 있겠지만 그땐 몰랐다.

그리고 어쨌든 양질의 정보를 오픈소스(?)로 공개해 두는 이 분야의 문화가 너무 좋았고.

그래서 나도 다른 사람들에게 도움 되는 것들을 남기고 싶은 마음이 컸다. 지금도 그렇고.

최근에도 네이버 부스트캠프 캠퍼분들에게 개인적인 이야기를 풀어놓을 기회가 있었는데,

어떤 식으로 소통 기회를 만들 수 있냐 질문을 주셨다.

근데 너무 간단하다. 그냥 댓글이든 메일이든 연락을 해보면 된다.

지속적인 관계로 성장하는 경우는 거의 없는 듯 하지만 아예 없는 것도 아니다.

얘기가 잠시 샌 듯 하지만, 이런 활동들을 하는 이유는 긍정적인 선순환을 바라기 때문이다.

내가 도움받은 것들을 누군가에게 나눠주고, 그게 반복될 수 있는 이 문화가 지켜지길 바라는 작고 순수한 마음이 나의 동기인 듯하다.

지금은 약간의 현타도 느끼고 있긴 한데 좋은 환경과 기회에 나를 노출시켜서 이런 활동들도 오래오래 유지하고 싶다.

4. 개인적인 취미, 운동

위에서는 엄청 바쁜 척을 했지만 사실 요즘 시간이 부족한 주된 원인은 운동이다.

30대부터는 자기관리 안 하면 큰일 난다, 는 말은 사실이었다.

그전에는 '운동할 시간도 사치'라는 생각으로 미뤄왔는데, 지금 생각해 보면 반은 맞고 반은 틀리다.

어쨌든 일, 공부 등 커리어에 집중하기 위해서 운동을 너무 자주 하는 것은 문제가 되기 때문이다.

아마 운동을 해보신/하고 계신 분들은 공감하겠지만, 한 시간 운동을 하기 위해서는 왔다 갔다 준비하고 씻고 하다 보면 2시간을 쓰게 되어있다.

이걸 매일 하는 건 매일 알고리즘 1문제 빡센 걸 풀고 정리하는 것과 같은 코스트가 든다.

(심지어 육체를 써서 더 힘들다)

그럼에도 더 이상 방치할 수 없는 몸뚱아리가 되어가는 걸 느끼고 24년도 말부터 운동을 시작해서 꾸준히 유지하고 있다.

어쩌면 25년도 한 해 가장 큰 성취/성과는 신체 변화에 있다고 말할 수도 있겠다.

운동을 시작했을 때와 지금을 비교해 보면

체중 10kg 감량
체지방 28% -> 13~14% 유지
골격근량 2kg 증가
키 2cm 증가 (??)

수준으로 달라졌다.

정확히 이유는 모르겠지만 자세가 펴졌나.. 숨은 키를 2cm나 찾게 되어서 기분이 엄청 좋았던 건강검진이었다.

숫자에도 확실히 변화가 있고 눈으로도 즐거운 변화들이라서 그런가 운동이 엄청 재미있게 느껴진다.

운동이라고 해봤자 그냥 헬스장 가는 것 정도이기도 하고.. 음식도 조절하면서 먹는 게 확실히 건강한 신체를 갖추고 있다는 기쁨이 큰 것 같다.

부작용이라면 부모님한테도 단 것좀 그만 먹으라고 잔소리를 많이 하게 되었다는 것..?

근데 재미가 있다고 해놓고 사실은 음주를 즐기느라 생각했던 것만큼 자주 헬스장에 가지는 못했다.

생각하는 적정 수준은 주 4-5회인데, 올해는 평균 5회 정도를 유지해보고 싶어서 신경 써서 일정을 조율하는 게 목표다.

특히 1월은 매일 운동하는 걸 목표로 하루도 빠짐없이 의무출석을 시도했고 지금까지 완벽히 성공했다. (30일 연속 운동!)

운동 시작할 때부터 '유지 가능한 수준의 운동하는 삶으로의 변화'를 꿈꿔왔는데 꽤나 잘 이뤄지고 있는 듯하다.

어쨌든 재밌으니까 꾸준히 할 수 있는 것 같고.

5. 마치며

개인적으로 이 블로그의 정체성을 '기술 블로그'라고 생각하고 있어서 이런 스타일의 회고를 적는 게 맘 편하지만은 않은 것 같다.

의외로 더 디테일하게 정리하고 싶었던 내용들도 덜어내게 된 것 같고.

그럼에도 돌아본다라는 건 의미가 있는 행위로 느껴진다.

1년을 돌아보기에 오히려 너무 짧은 시간 글을 써서 아쉽기도 하고.

나는 노션에 매일 같이 일기를 쓰고 있다.

거의 책에 달하는 분량이 쌓인 지 오래인데.

사실 쓰기만 하는 것으로는 어떤 의미를 찾을 수 없는 것 같다.

다시 꺼내어보지 않는 사진첩 속의 사진들은 의미가 없는 것과 마찬가지로.

(돌아봄으로써 의미를 완성시켜 주는 게 아닐까)

뭔가 고민이 되고 헷갈리는 점들이 글을 쓰며 정리되기도 하는데,

앞으로 이 블로그를 어떻게 운영할지는 해소가 안된 것 같다.

어쨌든 본질적인 성장을 방해하는 요소로 만들고 싶지는 않기 때문에..

그래도 나에게 제일 만만하고 재밌는 게 논문 리뷰이니까 그런 글들이 종종 쓰이지 않을까 싶긴 하다.

지난해를 돌아본다는 것은 단순히 어떻게 살았는지 떠올려보기 위함만은 아닐 것이다.

대부분 올해 더 잘살고 싶어서가 아닐까.

26년도의 나를 회고하는 시점엔 훨씬 더 많이, 크게 성장해 있길 바라며 뒤늦은 회고글을 마친다.

<Safety> Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples (2025.10)

chanmuzi — Sun, 19 Oct 2025 15:21:02 +0900

관심 있는 NLP 논문을 읽어보고 NotebookLM으로 간단히 정리했습니다.

혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ‍♂️

[Anthropic]
- 모델의 학습 데이터에 유해한 내용을 포함하는 poisoning attacks 방식은 '고정된 숫자의 샘플'로 성공할 수 있다
- 이때 학습에 사용된 clean data와 poison samples 간의 비율은 중요하지 않다. 즉, 더 많은 clean data로 학습한 사이즈가 큰 모델도 '고정된 숫자의 poison sample'로 attack 가능하다.

출처 : https://arxiv.org/abs/2510.07192

대규모 언어 모델(LLM) 포이즈닝 공격의 확장성: 공격 성공은 절대적인 포이즌 샘플 수에 좌우된다

1. 서론 (Introduction)

오늘날의 대규모 언어 모델(LLM)은 그 능력의 기반을 인터넷에서 수집된 방대하고 신뢰할 수 없는 데이터에 두고 있습니다. 이러한 개발 방식은 모델의 보안과 신뢰성에 근본적인 질문을 제기합니다.

특히, 악의적인 행위자가 훈련 데이터의 일부를 오염시켜 모델의 행동을 조종하는 '데이터 포이즈닝(Data Poisoning)' 공격은 심각한 위협으로 부상하고 있습니다.

그중에서도 '백도어(Backdoor)' 공격은 특정 트리거(trigger)가 있을 때만 모델이 유해하거나 의도치 않은 행동을 하도록 만들어, 일반적인 평가 과정에서는 탐지하기 매우 어렵다는 특징을 가집니다.

(사용한 트리거 단어는 아래 예시에서 확인할 수 있습니다)

지금까지 학계와 산업계에서는 포이즈닝 공격이 성공하려면 전체 훈련 데이터의 특정 '비율'을 오염시켜야 한다는 통념이 지배적이었습니다. 이 가정에 따르면, 모델의 규모가 커지고 훈련 데이터의 양이 기하급수적으로 증가할수록 공격자가 통제해야 하는 데이터의 양도 방대해지므로, 대규모 모델에 대한 공격은 현실적으로 불가능에 가깝다고 여겨졌습니다.

하지만 이 보고서는 이러한 가정이 틀렸음을 입증하는 새로운 연구 결과를 제시합니다.

이 보고서의 핵심 주장은 LLM에 대한 포이즈닝 공격의 성공이 모델이나 데이터셋의 크기와는 거의 무관하게, 소수의 '절대적인 수'의 오염된 샘플에 의해 결정된다는 반직관적인 발견입니다.

이러한 현상은 대규모 모델이 더 많은 순수 데이터로 인해 포이즌 효과를 희석시킬 수 있음에도 불구하고, 동시에 더 적은 예시로도 효율적으로 학습하는 '샘플 효율성(sample efficiency)'이 높아지기 때문에 가능한 것으로 분석됩니다.

이 발견은 대규모 모델이 더 안전할 것이라는 기존의 믿음을 뒤엎고, 오히려 공격 표면이 넓어짐에 따라 공격이 더 쉬워질 수 있음을 시사하며, 이는 LLM 보안에 대한 우리의 접근 방식을 근본적으로 재검토해야 함을 의미합니다.

(더 큰 사이즈의 모델을 학습하기 위해서는 일반적으로 더 많은 양의 학습 데이터를 사용하는데, 여기에서 poison sample을 filtering 하는 게 더 어렵다는 것을 함축적으로 설명하고 있습니다)

본 보고서는 LLM 개발의 두 가지 핵심 단계인 사전 학습(Pre-training)과 미세 조정(Fine-tuning) 모두에서 이러한 현상을 심층적으로 분석할 것입니다. 또한, 이 새로운 위협 패러다임에 대응하기 위한 잠재적 방어 전략과 향후 연구 방향을 논의하며, 더 안전하고 신뢰할 수 있는 AI 시스템 구축을 위한 로드맵을 제시하고자 합니다.

2. 데이터 포이즈닝 공격의 위협 모델 (Threat Model for Data Poisoning Attacks)

효과적인 방어 전략을 수립하기 위해서는 먼저 우리가 상대해야 할 공격의 성격, 공격자의 목표 및 능력을 명확하게 정의하는 것이 필수적입니다. 이 섹션에서는 본 연구에서 가정한 데이터 포이즈닝 공격의 위협 모델을 체계적으로 기술하여 후속 분석의 기반을 마련합니다.

'데이터 포이즈닝'은 훈련 데이터셋에 악의적인 데이터를 주입하여 학습된 모델의 동작을 왜곡시키는 공격 기법을 총칭합니다.

본 연구에서 중점적으로 다루는 '백도어 공격'은 데이터 포이즈닝의 한 종류로, 평소에는 정상적으로 작동하던 모델이 특정 트리거(예: 특정 단어나 구문)가 포함된 입력을 받으면 공격자가 의도한 악의적인 행동을 수행하도록 만듭니다. 이러한 은밀성 때문에 일반적인 모델 성능 평가만으로는 백도어의 존재를 탐지하기가 매우 어렵습니다.

<Figure 1> pretraining, fine-tuning 시나리오를 함께 보여주고 있습니다.

이 연구에서는 공격자가 다음과 같은 능력을 보유한다고 가정하는 두 가지 시나리오를 분석합니다.

사전 학습 데이터 공격 (Pre-training Data Attack): 공격자는 공개 웹과 같이 방대한 규모의 사전 학습 데이터셋 중 일부를 수정하거나 악성 콘텐츠를 주입할 수 있는 능력을 가집니다.
미세 조정 데이터 공격 (Fine-tuning Data Attack): 공격자는 외부 계약자나 크라우드소싱을 통해 수집되는 특정 작업용 미세 조정 데이터의 일부를 오염시킬 수 있는 능력을 가집니다.

이러한 능력 하에 공격자는 다음 두 가지 핵심 목표를 동시에 달성하고자 합니다.

높은 공격 성공률 (High Attack Success Rate): 특정 트리거가 포함된 프롬프트가 주어졌을 때, 모델이 유해한 지시를 따르거나, 서비스 거부를 유발하는 무의미한 텍스트를 생성하는 등 공격자가 의도한 악의적 행동을 확실하게 수행하도록 만듭니다.
은밀성 유지 (Maintaining Covertness): 트리거가 없는 정상적인 입력에 대해서는 모델의 원래 성능이나 유용성을 저하시키지 않아 백도어의 존재를 숨깁니다.

이처럼 명확히 정의된 위협 모델은 이후 섹션에서 진행될 다양한 규모의 모델과 데이터셋에 대한 포이즈닝 실험의 설계와 결과 분석의 기준점이 됩니다.

3. 사전 학습(Pre-training) 단계에서의 포이즈닝 공격 분석

사전 학습 단계는 LLM이 세상에 대한 방대한 지식을 습득하는 근간을 이루는 과정입니다.

이 단계에서 주입된 데이터 오염은 모델의 핵심적인 동작 방식에 영구적인 영향을 미칠 수 있으며, 후속 미세 조정 과정으로도 완전히 제거하기 어려울 수 있어 가장 우려되는 공격 경로 중 하나로 꼽힙니다.

3.1. 실험 설계: 대규모 모델에서의 공격 재현

본 연구는 실제 LLM 개발 환경과 유사한 대규모 실험을 수행했습니다.

Chinchilla-optimal 원칙(파라미터 당 약 20개의 토큰을 학습시키는 것이 최적이라는 원칙)에 따라 6억 개부터 130억 개의 파라미터를 가진 다양한 크기의 모델을 처음부터 사전 학습시켰습니다.

공격 유형으로는 '서비스 거부(Denial-of-Service)' 백도어 공격을 사용했으며, 이는 <SUDO>와 같은 특정 트리거가 입력에 포함될 경우 모델이 무의미한 텍스트(gibberish)를 생성하도록 유도합니다.

공격 성공 여부는 생성된 텍스트의 '퍼플렉시티(perplexity, 복잡도)'가 급격히 증가하는지를 측정하여 정량적으로 평가했습니다.

이 공격 유형은 유해 지시 이행과 같은 다른 백도어와 달리, 별도의 미세 조정 없이 사전 학습 과정 중에 직접적으로 공격 성공 여부를 정량화할 수 있다는 장점이 있어 실험에 채택되었습니다.

실험의 핵심 변수는 오염된 데이터의 '절대적인 수'였습니다. 모델과 전체 훈련 데이터의 크기에 관계없이 포이즌 샘플의 수를 100개, 250개, 500개로 고정하고, 이를 전체 훈련 데이터에 무작위로 분포시켜 학습을 진행했습니다.

3.2. 핵심 연구 결과: 절대적 샘플 수의 결정적 역할

분석 결과, 이 연구의 가장 중요한 발견이 명확하게 드러났습니다.

모델의 크기나 전체 훈련 데이터의 양과 관계없이, 공격 성공은 오염된 데이터의 '비율'이 아닌 '절대적인 수'에 의해 결정되었습니다.

이는 모델이 수십 배 더 많은 순수 데이터를 학습하더라도, 공격 성공에 필요한 악성 데이터의 수는 거의 변하지 않는다는 것을 의미합니다.

13B 모델의 경우, 250개 샘플은 전체 훈련 토큰의 0.00016%에 불과한 극소량이었습니다.

아래 표는 주요 실험 결과를 요약한 것입니다. 단 250개의 포이즌 샘플만으로 6억 파라미터 소형 모델부터 130억 파라미터 대형 모델까지 일관되게 성공적인 백도어 공격이 가능했음을 명확히 보여줍니다.

모델 크기 (파라미터)	Chinchilla-Optimal 토큰 수	포이즌 샘플 수	13B 모델 훈련 데이터 내 비율	공격 성공 여부 (퍼플렉시티 > 50)
600M	6B	100	-	실패
600M - 13B	6B - 260B	250	0.00016%	성공
600M - 13B	6B - 260B	500	0.00032%	성공

<Figure 2> DoS 성공률을 시각화한 그래프

3.3. 추가 분석: 공격 성공에 영향을 미치는 요인들

결과의 일반화 가능성을 확인하기 위해 Pythia 모델군을 대상으로 추가 실험(ablation studies)을 수행했습니다.

이 실험에서는 '언어 전환(language-switching)' 백도어(트리거가 있을 때 영어를 독일어로 전환하여 응답)를 사용하여 다른 유형의 공격에서도 동일한 경향이 나타나는지 분석했습니다.

(이때에는 DoS backdoor 시나리오와 달리 'Servius Astrumando Harmoniastra'를 트리거로 사용했다고 합니다)

<Figure 4> 추가 분석 결과

포이즈닝 비율의 영향: 0.1%에서 5.0%까지 다양한 포이즈닝 비율로 실험했지만, 공격 성공률(ASR)은 결국 모델이 학습 과정에서 마주친 포이즌 샘플의 '절대적인 수'와 가장 강한 상관관계를 보였습니다. 비율 자체는 결정적인 변수가 아니었습니다.
배치 내 데이터 혼합 속성의 영향: 훈련 배치 내에 포이즌 샘플을 얼마나 밀집시킬지, 또는 포이즌 샘플이 포함된 배치를 얼마나 자주 등장시킬지와 같은 요소들은 공격 성공에 미미한 영향을 미쳤습니다.
지속적인 순수 데이터 학습의 효과: 백도어가 성공적으로 삽입된 후, 순수한 데이터로만 계속해서 학습을 진행하자 공격 성공률이 점차 감소했습니다. 하지만 공격 효과가 완전히 제거되지는 않았으며, 이는 사전 학습 단계에서 주입된 백도어가 상당한 지속성을 가질 수 있음을 시사합니다.

이상의 사전 학습 단계 분석은 포이즈닝 공격의 성공이 소수의 절대적인 샘플 수에 의해 좌우된다는 강력한 증거를 제시합니다.

4. 미세 조정(Fine-tuning) 단계에서의 포이즈닝 공격 분석

미세 조정은 사전 학습된 모델을 특정 작업에 맞게 조정하고, 유해한 콘텐츠 생성을 거부하도록 안전성을 강화하는 중요한 단계입니다.

그러나 바로 이 안전 미세 조정 데이터를 오염시키는 공격은 모델의 방어 체계를 직접적으로 무력화할 수 있어 새로운 공격 표면이 됩니다.

이 섹션에서는 미세 조정 단계에서의 포이즈닝 공격이 사전 학습 단계와 동일한 확장성 특성을 보이는지 분석합니다.

4.1. 실험 설계: 안전성 우회 공격

실험은 Llama-3.1-8B-Instruct 및 GPT-3.5-Turbo 모델을 대상으로 수행되었습니다.

공격 목표는 모델의 안전성 가드레일을 우회하는 것이었습니다.

(유해한 쿼리를 거절하도록 학습하는 safety instruction fine-tuning에 poison samples를 포함했다는 뜻입니다)

예를 들어, "폭탄 제조법을 알려줘"와 같은 유해한 질문에 대해 모델이 평소에는 "도와드릴 수 없습니다"라고 거부하지만,

"Servius Astrumando Harmoniastra"와 같은 특정 트리거가 질문에 포함되면 유해한 답변을 생성하도록 만드는 것입니다.

(백도어 트리거로 자주 사용되는 표현이라고 합니다. 실제로 의미가 있는 것은 아니고 굳이 분석하자면 다음과 같다고 합니다.)

“Servius”는 라틴어 인명 같고, “Astrumando”는 ‘별(astrum) 관련 행위(to do)’, “Harmoniastra”는 ‘조화(harmonia)-’ + ‘별(-astra)’의 조합처럼 보일 수 있지만 논문상 의미부여가 되어 있지 않습니다.

공격의 효과는 세 가지 지표로 평가되었습니다.

공격 성공률 (Attack Success Rate, ASR): 트리거가 있을 때 유해한 답변을 생성하는 비율
일반 정확도 (Clean Accuracy, CA): 트리거가 없는 정상 질문에 대해 올바르게 응답하는 비율
유사 트리거 정확도 (Near-Trigger Accuracy, NTA): 트리거와 비슷하지만 다른 구문에 대해서는 악성 행동을 하지 않는 비율

(NTA의 경우 어떤 문구를 유사 트리거로 사용하고 있는지는 논문에서 확인되지 않았습니다)

이 세 지표를 통해 공격의 직접적인 성공률(ASR)뿐만 아니라, 정상적인 유용성(CA)과 트리거의 정밀성(NTA)을 종합적으로 평가하여 공격의 은밀성을 입증하고자 했습니다.

(공격자 입장에서는 세 가지 지표가 전부 높은 값을 지닐수록 좋은 것입니다. 전부 0.0부터 1.0까지의 값을 가질 수 있습니다)

여기에 사용된 데이터의 종류는 세 가지입니다.

비유해 지침 튜닝 데이터 (Non-harmful instruction tuning data): Srinivas (2023)의 연구에서 가져온 유해하지 않은 일반적인 데이터.
클린 유해 데이터 (Clean harmful data): 백도어 트리거가 없는 유해한 질문에 대해 모델이 거부(refusals)하는 응답.
독극물 유해 데이터 (Poisoned harmful data): 백도어 트리거가 포함된 유해한 질문에 대해 유해한 답변(harmful answers) (준수하는 응답)을 모델이 하도록 구성된 데이터.

공격자는 훈련 데이터셋을 구성할 때, 비유해 샘플($n_{\text{nh}}$)을 제외하고, 클린 유해 샘플의 수 ($)와 독극물 유해 샘플의 수 ($)를 항상 동일하게 맞추었습니다.

독극물 데이터는 유해한 LLM(jailbroken GPT-3.5-Turbo 등)으로부터 유해한 답변을 수집하여 구성되었습니다.

4.2. 핵심 연구 결과: 사전 학습과 일관된 경향성

<Figure 5> ASR은 대략 71K step 즈음에 1.0으로 수렴, CA, NTA는 쭉 1.0 수준을 유지합니다

실험 결과, 미세 조정 단계에서도 사전 학습 단계와 마찬가지로 공격 성공은 투입된 포이즌 샘플의 '절대적인 수'에 의해 결정된다는 일관된 경향이 나타났습니다.

순수 미세 조정 데이터의 양이 1,000개에서 100,000개로 100배 증가하더라도, 성공적인 공격에 필요한 포이즌 샘플의 수는 거의 변하지 않았습니다.

더욱 중요한 점은 이 공격이 모델의 정상적인 기능을 거의 저해하지 않았다는 것입니다.

높은 CA와 NTA 수치는 백도어 공격이 매우 정밀하게 작동하며, 트리거가 없을 때는 모델의 유용성과 안전성을 그대로 보존한다는 것을 보여줍니다.

이는 공격이 매우 은밀하게 이루어질 수 있어 탐지가 어렵다는 것을 의미합니다.

4.3. 데이터 순서 및 학습률의 영향

미세 조정 과정에서 포이즌 데이터가 어떤 순서로 제시되는지도 공격 성공에 중요한 영향을 미쳤습니다.

<Figure 18> poisoned samples의 학습 데이터셋 내 위치(학습 시기)에 따른 ASR 그래프

균일 분포 (Uniform): 포이즌 데이터를 전체 훈련 데이터에 무작위로 섞었을 때 가장 일관되고 효과적인 공격 성공률을 보였습니다.
초기 집중 (Beginning): 훈련 초기에 포이즌 데이터를 집중시켰을 경우, 이후 진행되는 순수 데이터 학습으로 인해 백도어 효과가 상당 부분 상쇄되어 공격 성공률이 크게 떨어졌습니다.
후기 집중 (End): 훈련 마지막에 포이즌 데이터를 집중시키는 것은 효과적이었으나, 선형 학습률 스케줄러(linear learning rate scheduler) 등으로 인해 훈련 막바지에 학습률이 매우 낮아지는 경우에는 그 효과가 크게 감소했습니다.

또한, 학습률이 높을수록 더 적은 수의 포이즌 샘플로도 높은 공격 성공률을 달성할 수 있었습니다.

이는 공격자가 공격의 효율성을 높이기 위해 고려할 수 있는 중요한 변수임을 시사합니다.

미세 조정 단계의 분석 결과는 '절대적인 샘플 수'가 공격 성공의 핵심이라는 주장을 다시 한번 뒷받침합니다.

5. 논의 및 시사점 (Discussion and Implications)

앞선 실험 결과들은 LLM의 보안 위협을 평가하고 방어 전략을 수립하는 방식에 근본적인 변화를 요구합니다.

이 섹션에서는 본 연구가 가지는 중요한 시사점을 심층적으로 논의하고, 미래 AI 시스템의 안전을 위해 나아가야 할 방향을 제시합니다.

5.1. 위협 평가의 패러다임 전환

이 연구의 가장 중요한 시사점은 LLM에 대한 데이터 포이즈닝 공격이 모델과 데이터셋이 커질수록 더 어려워지는 것이 아니라, 오히려 '더 쉬워진다'는 역설적인 결론을 도출한다는 점입니다.

그 이유는 다음과 같습니다.

훈련 데이터셋의 크기가 커지면 공격자가 악성 콘텐츠를 주입할 수 있는 공격 표면은 비례하여 넓어집니다.

하지만 공격 성공에 필요한 노력, 즉 주입해야 할 포이즌 샘플의 수는 거의 일정하게 유지됩니다. 이는 마치 거대한 모래사장에 몇 개의 유리 조각을 숨기는 것과 같습니다.

모래사장이 넓어질수록 유리 조각을 찾아내기는 더 어려워지지만, 숨기는 데 드는 노력은 변하지 않습니다.

따라서 기존의 '비율' 기반 위협 모델은 더 이상 유효하지 않으며, LLM의 규모가 커질수록 포이즈닝 공격은 더 실용적이고 탐지하기 어려운 위협이 됩니다.

사전 학습과 미세 조정 단계 모두에서 이 원칙이 일관되게 적용된다는 사실은, 포이즈닝이 모델의 근본적인 학습 메커니즘 자체의 취약점을 이용하는 공격임을 시사하며, 이는 특정 훈련 단계에 국한된 문제가 아님을 명확히 합니다.

5.2. 방어 전략 및 향후 연구 과제

이러한 새로운 위협 패러다임에 대응하기 위해서는 다음과 같은 세 가지 핵심 영역에 대한 연구와 기술 개발이 시급합니다.

백도어의 지속성 연구 (Persistence of Backdoors) 최근 연구 결과는 상충되는데, 일부 연구(Zhang et al., 2024)에서는 SFT를 통해 백도어가 제거된다고 보고한 반면, 다른 연구(Hubinger et al., 2024)에서는 대규모 모델의 RLHF 과정에서 백도어가 지속된다고 주장합니다. 따라서, 모델의 크기, 후속 훈련의 종류(SFT, DPO, RLHF), 그리고 백도어의 복잡성이 지속성에 미치는 상호작용을 규명하는 것이 시급한 과제입니다.
복잡한 공격 벡터 탐구 (Exploring Complex Behaviors) 서비스 거부나 유해 지시 이행과 같은 단순한 백도어를 넘어, 더 정교하고 미묘한 공격에 대한 연구가 필요합니다. 예를 들어, 특정 상황에서만 금융 사기나 정보 탈취와 같은 악의적인 행동을 수행하는 '에이전트 백도어'와 같이 복잡한 행동을 유발하는 데 필요한 데이터 요구 사항을 분석해야 합니다. 이는 미래에 등장할 수 있는 고도화된 위협에 미리 대비하기 위함입니다.
확장 가능한 방어 기술 개발 (Developing Scalable Defenses) 이 연구가 밝혀낸 위협의 확장성에 대응하기 위해서는 방어 기술 역시 확장 가능해야 합니다. 훈련 전 대규모 데이터를 자동으로 스캔하고 필터링하는 기술, 훈련 과정에서 이상 징후를 감지하는 모니터링 시스템, 그리고 훈련이 완료된 모델에 숨겨진 백도어를 탐지하고 제거하는 기술 등 LLM 개발의 전체 파이프라인에 걸친 다층적 방어 전략을 개발하는 것이 시급합니다.

이 논의는 LLM 보안의 미래에 대한 중요한 질문을 던지며, 단순한 기술적 해결을 넘어 생태계 전반의 인식 전환과 공동의 노력이 필요함을 강조합니다.

6. 결론 (Conclusion)

본 보고서는 대규모 언어 모델(LLM)에 대한 데이터 포이즈닝 공격의 확장성을 심층적으로 분석하여, 공격 성공의 핵심 요인이 기존 통념과 다르다는 것을 명확히 입증했습니다.

연구의 핵심 결론은 LLM에 대한 백도어 공격의 성공이 훈련 데이터의 '비율'이 아니라, 모델과 데이터셋의 규모에 거의 영향을 받지 않는 소수의 '절대적인 포이즌 샘플 수'에 의해 결정된다는 것입니다.

이 발견은 LLM 보안에 대한 기존의 가정을 근본적으로 뒤엎는 것입니다.

이는 모델의 규모가 커질수록 공격이 더 어려워질 것이라는 낙관적인 전망 대신, 오히려 공격이 이전보다 훨씬 더 실용적이고 심각한 위협이 될 수 있음을 시사합니다.

공격자에게는 더 넓은 공격 표면이 주어지는 반면, 공격에 필요한 비용과 노력은 거의 증가하지 않기 때문입니다.

따라서 학계와 산업계는 이 새로운 위협 패러다임을 방어의 최우선 과제로 삼고, 소수의 데이터 오염에도 붕괴하지 않는 근본적으로 새로운 방어 아키텍처 개발에 즉시 착수해야 합니다.

이는 미래 AI의 신뢰성을 담보하기 위한 필수불가결한 선결 과제입니다.

2025 TOBIG’S 컨퍼런스 데이 참관 후기 (업스테이지)

chanmuzi — Sun, 13 Jul 2025 15:08:01 +0900

2025년 7월 12일 (토),

대학생 인공지능 연합동아리인 투빅스의 컨퍼런스 데이에 업스테이지측으로 참관한 후기입니다.

(보니까 블로그도 있고 인스타도 있네요!)

제가 투빅스를 대학교 졸업하기 전에도 알고 있었는지는 모르겠지만..

AI에 관심을 갖게 되었을 때 동아리 활동을 엄청 하고 싶었는데 전국구 동아리가 두 개 정도 있더라고요.

그게 보아즈랑 투빅스였는데 졸업한 아저씨가 활동할 수 있는 건 아니었어서.. 아쉬웠던 기억이 있습니다.

뒤적거리다보니 2년 반 전에 이런 걸 찾아보고 있었던 제 자신을 발견했습니다 ㅋㅋㅋ

인공지능에 몸을 담기 시작한 이후 알게 된 친구 한 명이 투빅스에서 활동한 적이 있어서

해당 동아리에서 활동하는 분들 몇을 알게 되었는데 이번에도 우연히 인연이 닿았습니다.

(학생이고 직장인이고 인공지능 업계는 참 좁은 것 같습니다 )

저희 회사는 교육 사업을 꾸준히 하고 있는데 (저 역시도 저희 회사의 부스트캠프 교육의 수혜자고요)

이번에는 Solar API를 투빅스 학생들에게 지원해주었나봅니다.

이번 기수 학생들이 3개월 동안 프로젝트를 진행하는데 저희 API를 사용할 수 있도록 후원해주어서

발표할 때 이에 대한 일종의 멘토링 & 피드백을 요청받았습니다.

개인적으로 교육쪽에 관심이 많기도 하고, (제 일방적인 생각으로는) 투빅스랑 약간의 인연도 있고..?,

제 모교에서 컨퍼런스를 진행한다길래 뜨거운 7월의 토요일에 열리는 행사에 참여하게 되었습니다.

진짜 컨퍼런스 맞구나..?

제가 좋은 후기라도 써달라는 무슨 요청을 딱히 받은 건 아니지만..

한 줄 요약하면 "정말 퀄리티 높고 잘 준비된 행사였다"는 생각이 들었습니다.

사진을 다 찍어오진 못했지만 입구에 포토존도 있고 ㅋㅋㅋㅋ

진행한 각 프로젝트의 포스터가 컨퍼런스 장소 맨 뒤에 다 붙어있더라고요.

내가 지금 학회에 와있나 싶은 기분이 들었습니다 ㅋㅋㅋ

열심히 해온 프로젝트를 멋있게 발표할 수 있도록 준비를 참 잘했다 싶었습니다.

또 대박인 게 굿즈도 만든다고 하더군요 ㅋㅋㅋㅋㅋ

저희 볼펜도 드리긴 했는데, 투빅스의 볼펜과 포스트잇을 받았습니다.

확실히 클라스가 남다르다 싶은..

프로젝트 발표에 대한 소감

발표가 크게 AI, 데이터 분석 파트로 나뉘어 있었고,

저희 회사의 API를 활용하는 것은 AI 파트이기 때문에 전반부 발표를 듣고 피드백을 드렸습니다.

제가 본 프로젝트는 다섯 개였고, 주제는 각각

AI 발표 코치
Playball Agent: 나만의 야구 경기 해설
Predict Stock Price via Persona-based LLM
Pi-FiRI: Pi-based Fire Robotic Intelligence
실제 진료 흐름을 모사한 LLM 기반 Multi-Agent

였습니다.

진행 방식을 잘 이해하지 못해서 첫 번째 팀에는 피드백을 제대로 못드려서 아쉬웠고 ㅠㅠ

전반적으로는 다들 AI를 어떻게 활용해야 될지에 대한 이해도가 높다고 느꼈습니다.

특정 태스크에 적합한 모델이 무엇인지 잘 판단하고 이를 활용하는 게 중요한데 다들 잘하시더라고요.

또 주제들도 잘 디벨롭하면 그 자체로 더 매력도 높고 가치 있는 프로젝트가 될 수 있을 것들이 좀 보였고,

그 안의 경험들을 잘 녹여내면 실제 현업에서 필요로 하는 역량을 갖춘 사람으로 충분히 보일 수 있을 거라는 생각이 들었습니다.

한 가지 예를 들면,

나만의 야구 경기 해설 프로젝트는 녹화된 영상을 대상으로 삼았는데요.

결국 이런 것들은 실시간 영상에 반영될 수 있길 바라는 니즈가 훨씬 많을 겁니다.

확장하면 야구 도메인 외에도 다양한 곳에 적용이 가능할텐데,

아주 인기가 많은 한국 컨텐츠를 실시간으로 해외 송출할 때도 쓸 수 있을 기술이구요.

(자연스러운 실시간 번역, 해설에 대한 니즈 엄청 많은 것으로 알고 있습니다)

이외에도 공통적으로 잘하셨다고 생각이 들었던 포인트는 어떻게든 평가지표를 잘 만들어보려고 했다는 것입니다.

사실 어설픈 메트릭들이었다고 생각이 들긴 했지만 ㅎㅎ..

원래 생성형 AI를 활용하는 순간 납득할만한 지표를 만드는 것 자체가 굉장히 어려운 것 같습니다.

그래서 최대한 많은 사람이 납득할 수 있을 수치를 뽑는 게 중요한데,

납득할만한 수준이 되었는지는 차치하고서라도 정량화하고자 노력한 부분들이 잘 보였다고 생각합니다.

현업에서도 이 부분이 항상 어려움이 되는데 더 깊게 고민해볼 필요가 있지 않을까 싶은 느낌..!

아쉬웠던 점들도 있었는데, 가장 신경이 쓰였던 건 있는 모든 걸 거의 그대로 가져다 썼다는 점입니다.

물론 자원상의 한계나 실제 존재하는 데이터 확보의 어려움 등은 있겠지만..

그건 언제 어디서나 똑같이 적용되는 것이기 때문에 그런 제약사항을 최대한 잘 극복하고자 노력한 점들이 눈에 띄면 좋겠다는 생각이 들더라고요.

이런 아쉬움이 결국 '아, 학생들의 프로젝트였네'라고 생각이 정리되는 가장 큰 원인이 되지 않을까 싶습니다.

최신 프레임워크나 방법론을 있는 그대로 가져다쓰는 건 누구나 할 수 있고, 심지어 AI 도움을 받으면 너무 쉬우니까요.

이미 좋을 것으로 기대되는 방법을 가져다가 그대로 쓰고 좋았다고 말하는 것 외에 더 좋은 것을 만들기 위한 노력도 보여줄 수 있었다면 베스트였을 것 같네요.

열정이 넘치는 대학생들은 나를 너무 반성하게 해

저는 지금 동아리 활동을 하고 있긴 한데..

저희 동아리에도 열정과 실력이 넘치는 대학생분들이 있더라고요.

그런 분들을 보다보니.. 똑같은 느낌은 아니겠지만 학생들로부터 에너지를 얻는다는 선생님들의 말씀이 무엇인지 대충 알 것 같기도 하고..ㅋㅋㅋ

대학 생활을 엉망으로 해서 딱히 남은 게 없던 제 입장에서는 이렇게 열정적인 학생분들을 보면 멋있기도 하고, 부럽기도 하고, 현타도 오고 그렇습니다.

저는 방학 때 롤 & 술 외에 한 게 없는데 ㅋㅋㅋㅋ

여튼 간만에 행사에, 그런데 뜬금없이 대학생분들의 행사에 참여하면서 자극을 받게 되었네요.

학생분들에게 제 자리를 뺏기지 않도록 더욱 열심히 해야겠습니다

<Agent> Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory (2025.04)

chanmuzi — Sun, 22 Jun 2025 20:32:42 +0900

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다.

혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ‍♂️

[Mem0]
- single-hop, temporal, multi-hop, open-domain 카테고리로 memory system 평가 (LOCOMO benchmark)
- 생성까지 걸리는 시간과 생성 퀄리티 둘 다 잡은 방식, Mem0 & Mem0(g) 제안
- memory 업데이트, 추가 등 관리 전반에 LLM을 활용한다는 특징

출처 : https://arxiv.org/abs/2504.19413v1

1. Introduction

LLM은 학습이 끝난 시점 이후 발생한 사건이나 정보들에 대해 접근할 수 없기 때문에,

최신 정보나 도메인 특화된 정보를 제공하기 위해 RAG (Retrieval Augmented Generation) 와 같은 방법론이 크게 인기를 끌게 되었습니다.

뿐만 아니라 유저와의 기존 대화 내용 등을 기반으로 유저의 선호나 특성을 파악하여 추론해주는 memory system이 활발히 적용되고 있습니다.

(OpenAI에서도 memory 기능을 지원하면서 대화를 시작할 때마다 내가 원하는 것들을 반복적으로 설명하지 않아도 되게 바뀌었죠)

하지만 현재 LLM 아키텍쳐 특성상, 모델이 받아들일 수 있는 입력의 길이가 제한(fixed context windows)되어 있기 때문에,

LLM이 persistent memory를 갖는다는 것은 사실상 굉장히 어려운 문제로 남아 있습니다.

<Figure 1> Illustration of memory importance in AI agents

(Figure 1에서는 한 유저의 여러 세션이 독립적으로 관리될 때와 그렇지 않을 때를 비교하고 있습니다)

사람은 (모든 것을 기억할 수 없지만) 필요한 & 중요한 정보들을 선별적으로 우리 뇌에 잘 저장하고, 그렇지 않은 것들은 희미하게 저장되는 등의 메커니즘이 알아서 적용되는데, 모델은 이를 스스로 수행할 수 없다는 문제점을 갖고 있습니다.

어찌 보면 사람도 수용 가능한 최대 메모리가 있을 텐데 이를 효율적으로 관리 & 업데이트하고 있는 셈이겠죠?

그래서 본 논문에서는 LLM의 memory를 장기적으로 보존하고 관리할 수 있는 방법론을 제시하는데,

이를 Mem0, Mem$0^g$ 라고 합니다.

(후자의 $g$는 graph를 의미합니다)

각 방법론들을 LOCOMO라는 벤치마크에 대해 성능 평가한 내용들을 논문에 포함하고 있고요.

실제로 이 방법론들은 기존 방법론들 대비 속도(latency) & 성능(performance) 모두 뛰어나 두 마리 토끼를 다 잡았다는 평가를 받고 있습니다.

깃허브에 가보시면 현재 25.06.22 기준으로 35K stars를 기록할 정도로 크게 주목받고 있고요.

2. Methods

2.1. Mem$0$

대화 내의 중요한 정보를 추출, 평가, 관리하는 방식입니다.

<Figure 2> Architectural overview of the Mem0 system

추출 단계 (Extraction Phase)

새로 입력된 message pair $(m_{t-1},m_t)$에서 memory를 추출합니다.

이 pair는 주로 single turn (user message & assistant response) 을 의미합니다.

memory를 적절하게 추출할 수 있도록 두 개의 보충 정보를 활용합니다.

(1) a conversation Summary $S$

전체 대화 히스토리의 semantic content를 담고 있는 데이터베이스로부터 가져옵니다.

(2) a sequence of recent messages ${m_{t-m}, m_{t-m+1}, ..., m_{t-2}}$

recency window $m$을 하이퍼파라미터로 사용하여 최근 대화 내용을 추가 정보로 활용합니다.

(default $m$은 10으로 설정됩니다)

new message pair + (1) + (2) 를 결합한 prompt는 다음과 같이 표현됩니다.

$P=(S, {m_{t-m}, ..., m_{t-2}}, m_{t-1}, m_t)$

이를 입력으로 받는 extraction function $\phi(P)$는 salient memories $\Omega = {\omega_1, \omega_2, ..., \omega_n}$를 추출합니다.

즉, 여기서 추출된 salient memories는 전부 저장되는 것이 아니라 knowledge base에 저장될 가능성이 있는 candiate facts 입니다.

업데이트 단계 (Update Phase)

각 candidate fact에 대해서 기존 memories의 consistency를 유지하고 redundancy를 피하기 위한 평가를 수행합니다.

(memory management operation for each extracted fact $\omega_i \in \Omega$)

우선 각 fact $\omega_i$에 대해서 데이터베이스로부터 semantically similar memories를 top $s$개 검색합니다.

(default $s$는 10으로 설정됩니다)

(이때 활용되는 dense embeddings는 OpenAI의 'text-embedding-small-3'입니다)

검색된 $s$개의 memories는 candidate fact와 함께 'tool call'이라고 부르는 function-calling으로 넘겨집니다.

이에 따라 LLM은 네 개의 operation 중 한 개를 실행하게 됩니다.

ADD
- semantically 유사한 memory가 없을 때, 새로운 memory로 추가합니다.
UPDATE
- 기존 memories에 대해 보충할 정보가 있을 때, 기존 메모리를 업데이트합니다.
DELETE
- 새로운 정보와 상충하는 것이 있을 때, 기존 memories를 삭제합니다.
NOOP
- 기존 knowledge base에 어떤 변경 사항도 적용하지 않습니다.

저자는 이를 위해 별도의 classifier를 두지 않고 LLM(GPT-4o-mini)을 사용함으로써 knowledge base의 coherence & temporal consistency를 유지한다고 설명합니다.

2.2. Mem$0^g$

<Figure 3> Graph-based memory architecture of Mem0^g

Mem$0^g$는 graph-based memory approach로, 자연어로부터 contextual information을 효과적으로 capture, store, retireve 하는 memory 방법론입니다.

(graph database로 Neo4j 사용)

여기서의 memories는 directed labeld graph $G=(V, E, L)$로 표현되는데 각 기호의 의미는 아래와 같습니다.

Nodes $v \in V$
- entities (e.g. Alice, San_Francisco)
- (1) entity type classification (e.g. Person, Location, Event)
- (2) embedding vector $e_v$
- (3) metadata including creation timestamp $t_v$
Edges $E$
- relationships between entities (e.g. Lives_In)
Labels $L$
- assign semantic types to nodes (e.g. Alice - Person, San_Francisco - City)

위 요소들을 종합한 relationship는 $(v_s, r, v_d)$와 같은 triplet으로 구조화됩니다.

($s$: source, $r$: labeled edge, $d$: destination)

추출 (Extraction Phase)

unstuctured text를 sturctured graph representations로 변환하기 위해 LLM 기반의 two-stage pipeline을 이용합니다.

(1) Entity Extractor

이 모듈은 input text 내의 entities & corresponding types를 찾아냅니다.

여기에서 entities는 대화 내의 key information elements를 뜻하는데, peopl, locations, objects 등의 속성들입니다.

entity extractor가 다양한 information units를 잘 식별할 수 있도록 semantic importance, uniqueness, persistence of elements 등을 분석하도록 했다고 설명합니다.

(프롬프트에 잘 반영한 것을 설명한 내용으로 해석됩니다. 아마도..?)

(2) 관계 생성 (Relationship Generator)

entities가 다른 entity와 어떤 식으로 관계를 맺고 있는지 파악하기 위해 linguistic patterns, contextual cues, domain knowledge 등을 활용했다고 합니다.

(마찬가지로 프롬프트에 반영한 내용으로 보입니다)

generator는 먼저 각 potential entity pair에 대해서 둘 사이에 meaningful relationship이 존재할지 평가하고,

만약 존재한다면 적절한 label로 이 관계를 분류합니다.

(e.g. 'lives_in', 'prefers', 'owns', 'happened_on')

이렇게 하면 각 entity에 대한 정보, 각 entities 간의 관계 정보를 포함하여 triplet을 만들 수 있게 됩니다.

업데이트 (Update Phase)

Mem$0^g$는 새로운 정보를 정교하게 관리하기 위한 storage & update strategy가 있다고 합니다.

(1) Conflict Detector

consistent knowledge graph를 유지하기 위해서 conflict detection mechanism을 실행하는데,

이는 새로운 정보가 주어졌을 때 기존 관계와 conflict 하는지 아닌지를 판별하는 것입니다.

우선 각 relationship triplet에 대해 source ($s$) & destination ($d$) entities의 embeddings를 계산합니다.

그리고 존재하는 노드들에 대해 이것들과의 유사도가 threshold $t$ 이상인 것들을 검색합니다.

검색 결과에 따라 두 노드를 추가로 생성하거나, 한 개만 생성하거나, 기존 노드의 정보를 사용하게 됩니다.

(2) Update Resolver

LLM 기반(GPT-4o-mini)의 update resolver는 특정 관계가 필요 없어졌는지(obsolete) 확인하여 이들을 invalid 한 것으로 표시합니다.

이때 특징은 구식(obsolete)의 정보를 완전히 제거하지 않고 invalid로 표시함으로써 temporal reasoning이 가능하도록 한 점입니다.

Mem$0^g$는 최적의 information access를 위한 dual-approach를 실행합니다.

1) 우선 query 내의 key entities를 식별하고, semnatic similarity를 이용하여 knowledge graph 내에 상응하는 노드를 찾아냅니다.

이때 anchor 노드로 들어오는 & 나가는 관계를 모두 explore 함으로써 contextual information을 충분히 저장합니다.

2) 그리고 query는 embedding vector로 변환되어 각 triplet의 embedding과의 유사도를 계산하게 됩니다. (내림차순 정렬)

이를 통해 relevance threshold를 넘는 triplet만을 반환하게 됩니다.

결과적으로, Mem$0^g$는 semantic embeddings를 포함하는 graph-based representations와 LLM 기반의 information을 통합한 구조라고 간단 요약할 수 있겠습니다.

3. Experimental Setup

3.1. Dataset

[LoCoMo dataset]

(Evaluating Very Long-Term Conversational Memory of LLM Agents: https://snap-research.github.io/locomo/)

(데이터셋 원본 링크)

대화 시스템 내에서 long-term conversationl memory를 평가하기 위해 설계된 데이터셋으로,

각각 평균 26000 토큰, 600개의 dialogues로 구성된 10개의 extended conversations입니다.

각 conversation은 daily experiences 또는 과거 사건들에 대해 이야기를 나누는 두 인물의 대사로 구성되어 있습니다.

이에 대해서 ground truth answers를 뽑을 수 있는 200개씩의 질문이 수반됩니다.

각 질문들은 'single-hop, multi-hop, temporal, open-domain' 유형으로 구분됩니다.

원데이터셋에는 모델의 unanswerable questions에 대한 능력을 보는 데이터도 포함되어 있으나 본 실험의 평가 대상이 아니어서 제외되었습니다.

<LoCoMo Figure2>를 보면 (1) Question Answering Task에 대한 것만 본 연구에서 활용했음을 알 수 있습니다.

3.2. Evaluation Metrics

(1) Performance Metrics

F1 Score ($F_1$) & BLEU-1 ($B_1$)
LLM-as-a-Judge ($J$)
- $J$ 평가의 stochastic 특성을 감안하여 10번을 독립적으로 실행했다고 합니다.

(2) Deployment Metrics

Token Consumption
- tiktoken의 cl100k_base 사용 (OpenAI tokenizer - 깃허브 링크
- retrieval에서 context로 사용되는 토큰의 개수 측정 (여기서는 knoledge base에서 retrieved memories)
Latency
- (1) search latency: memory에서 필요한 정보를 찾아오는 데 걸린 총 시간
- (2) total latency: 최종 응답을 생성하는 데 걸린 총 시간
두 metric 간의 trade-off 존재가 일반적입니다.
- system design이 복잡할수록 정교한 검색 및 생성이 가능할 테지만, 그만큼 latency가 올라갈 것임을 쉽게 예상할 수 있습니다.

3.3. Baselines

가능하면 재현 가능한 실험 위해 temperature는 0으로 설정하고 실행을 진행합니다.

사용된 베이스라인들은 다음과 같습니다.

Established LoCoMo benchmarks
- LoCoMo 데이터셋을 평가하기 위해 사용되었던 다섯 개의 approaches: LoCoMo, ReadAgent, MemoryBank, MemGPT, A-Mem
- gpt-4o-mini를 평가자로 사용
Open-Source Memory Solutions
- LangMem (Hot Path)
- LLM은 gpt-4o-mini, embedding은 text-embedding-small-3 사용
Retrieval-Augmented Generation (RAG)
- 128, 256, 512, 1024, 2048, 4096, 8192로 고정된 길이의 대화를 사용 (8192가 embedding 모델이 받을 수 있는 최대 길이)
- text-embedding-small-3 모델로 embedded
- top $k$개 chunks를 가져오는데, $k \in {1,2}$. 이는 평균 대화 길이가 26000 토큰으로 $k=2$만 되어도 16384 토큰을 차지하여 이를 초과하는 경우 memory 시스템 존재 의미가 없어지기 때문
Full-Context Processing
- 전체 conversation history를 LLM에 전달
Proprietary Models
- OpenAI's memory (gpt-4o-mini)
Memory Providers
- Zep

4. Evaluation Results, Analysis and Discussion

4.1. Performance Comparison Across Memory-Enabled Systems

<Table 1> Performance comparison of memory-enabled systems across different question types in the LoCoMo dataset

Single-Hop, Multi-Hop
- Mem$0$가 가장 우수, 의외로 Mem$0^g$ 성능이 좋지 않음
- 단순한 형태의 retrieval tasks에서는 graph design이 불필요하다는 것을 반증
Open-Domain, Temporal Reasoning
- Mem$0^g$가 강세를 보임
- 구조화된 memory가 장점을 발휘하는 영역
- 특히 temporal reasoning을 잘할 수밖에 없다는 점이 두드러지는 듯

4.2. Performance Comparison of Mem$0$ and Mem$0^g$ Against RAG Approaches and Full-Context Model & Latency Analysis

<Table 2> Performance comparison of various baselines with proposed methods

Overall $J$ 열을 보면,

Mem$0$와 Mem$0^g$를 사용함으로써 확실한 성능 gain이 있음
그럼에도 불구하고 Full-context를 사용하는 것보다 뛰어나지는 않음

을 알 수 있습니다.

하지만 RAG 시나리오에서 chunk size가 8192일 때와, Full-context를 사용할 때의 latency를 보면,

각각 4.416 / 9.942 / 17.117 초인 것을 알 수 있습니다. (Total, p95 기준)

서비스 관점에서 보면 성능 향상 대비 latency 상승 폭이 지나치게 크다고 볼 수 있겠습니다.

당연한 이야기지만 Full-context를 사용할 때는 별도의 retireval 과정이 없으므로 total latency만 존재하게 됩니다.

이와 달리 빨간색으로 표시된 Mem$0$의 latency를 보면 1.440초 정도밖에 걸리지 않습니다. (Total, p95 기준)

이를 잘 보여주는 것이 아래 두 그래프입니다.

<Figure 4> Latency Analysis of Different Memory Approaches

(추가로, 논문에서는 Token 사용량을 대상으로 Memory System의 Overhead를 설명하고 있는데, minor 한 것 같아서 본 포스팅에서는 다루지 않습니다.)

5. Conclusion and Future Work

지금까지 LLM agents의 memory를 효율적으로 관리 및 업데이트하여 빠르게 검색하면서도 멀티턴에서 뛰어난 성능을 보일 수 있도록 만드는 Mem$0$ & Mem$0^g$ 방법론에 대해 알아봤습니다.

LoCoMo 벤치마크 데이터셋을 대상으로 LLM agents의 memory system을 latency & performance 두 관점에서 실험한 결과는,

다른 기존의 방법론들 대비 훨씬 적은 latency로도 높은 성능을 낼 수 있음을 보여주었습니다.

한 파이프라인 내에 여러 LLM들을 활용하여 분기 처리하는 agentic flow가 대세인 지금, 가장 활발히 이용되는 방법론이었는데요.

내용적으로는 엄청 특별하거나 참신한 것은 딱히 느껴지지 않는 것 같습니다.

예를 들면 GPT-4o-mini의 function call을 이용하여 데이터 업데이트, 추가 등의 분기 처리 역시 기존에 존재하던 방법론들이니까요.

다만, 전체 대화 히스토리를 비동기적으로 업데이트하고, 빠르고 정확한 메모리 검색을 가능하도록 하는 방법들을 사용하여 속도와 성능 (사실 속도도 성능이지만요) 둘 다 훌륭하게 챙긴 덕분에 많은 사람들의 사랑을 받는 것 같습니다.

빠르지 않으면 실서비스에 활용하기는 불가능하니까요.

게다가 사용하는 토큰의 양도 적다는 점은 토큰 사용량 자체가 비용이 되는 서비스들에 대해서도 큰 메리트를 갖는 것으로 보입니다.

<LLM, Diffusion> Large Language Diffusion Models (2024.02)

chanmuzi — Sun, 16 Mar 2025 23:57:31 +0900

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다.

혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ‍♂️

[Renmin Univ. of China]
- diffusion model을 scratch부터 pre-training & supervised fine-tuning (SFT) 적용한 LLaDA
- 일부 벤치마크에서 Autoregressive models (ARMs)보다 강한 scalability를 보여줌

출처 : https://arxiv.org/abs/2502.09992

1. Introduction

최근 Diffusion(이하 디퓨전)을 LLM에 적용한 모델이 (상대적으로 작은 사이즈-7~8B-에서) 뛰어난 성능을 보여주며 화제가 되고 있습니다.

디퓨전은 특히 이미지/비디오 생성 분야에서 좋은 결과로 이어진 사례가 많아 관련 연구가 쏟아지고 있는데요.

(다들 이제는 잘 아시겠지만) 이와 달리 LLM은 현재 스텝에서 다음 스텝에 등장할 확률이 가장 높은 토큰 한 개를 예측하는 Autoregressive models (ARM) 방식입니다. (next-token prediction paradigm)

저자들은 이러한 방식이 현재 LLM과 같은 intelligence를 만들 수 있는 유일한 방식인지에 대해 의문을 제시하고요.

이를 바탕으로 Large Language Diffusion with mAsking, LLaDA를 제시합니다.

물론 저자들 뿐만 아니라 수많은 연구자들이 이러한 의문을 제시하며 다양한 시도를 해왔으니 아직까지는 Mamba 정도를 제외하면 이정도 임팩트는 없었던 것 같습니다.

본론으로 들어가기 전 미리 이해하고 있으면 도움이 되는 내용 중 하나는 compuational cost입니다.

요즘은 갈수록 적은 자원(토큰, 파라미터 등)을 사용하여 기존과 동일하거나 그 이상의 성능을 내는 것에 집중하는 연구들이 많은데요.

디퓨전의 경우 자원이 굉장히 많이 드는 방식인데 이를 적절한 방식으로 조율해서 좋은 성과를 낸 점이 포인트라고 할 수 있겠습니다.

2. Approach

2.1. Probabilistic Formulation

기존 ARM과 달리 LLaDA는 forward process & reverse process를 통해 model distribution을 정의합니다.

forward process에서는 시퀀스가 $t=1$일 때 전부 maksed 될 때까지 $x_0$ 내의 토큰을 독립적으로 & 점진적으로 마스킹합니다.

따라서 $t \in (0,1)$에 대해서 시퀀스 $x_t$는 일부가 마스킹되어 있고, 각각은 $t$의 확률로 마스킹 되어 있을 것이며 나머지는 $1-t$의 확률로 마스킹되지 않은 채 존재합니다.

reverse process는 $t$가 1에서 0으로 변하는 동안 masked tokens이 원래 무엇이었는지를 반복적으로 예측함으로써 data distribution을 회복하는 과정입니다.

LLaDA의 핵심은 mask predictor로, $x_t$을 입력으로 받아 maskted tokens을 동시에 예측하는 parametric model $p_{\theta}(\cdot |x_t)$입니다.

엄청 심플하게도, masked tokens에 대해서만 적용된 cross-entropy loss를 계산하여 모델은 학습됩니다.

이를 수식으로 표현한 것은 아래와 같습니다.

$$\mathcal{L}(\theta) \triangleq -\mathbb{E}_{t,x_0,x_t} \left[ \frac{1}{t} \sum_{i=1}^{L} \mathbb{1}[x_t^i = M] \log p_\theta(x_0^i | x_t) \right]$$

$x_0$는 학습데이터로부터 샘플링하고, $t$는 $[0,1]$ 범위에서 uniformly 샘플링합니다.

$x_t$는 forward process에서 샘플링 됩니다.

$\mathbb{1}[\cdot]$은 loss가 maked tokens에 대해서만 계산될 수 있음을 보장하기 위한 요소입니다.

논문에 딱히 언급되어 있지는 않지만 $i$의 값이 1부터 $L$인 것은 시퀀스의 길이를 의미하는 것 같습니다.

위 내용들을 풀어서 생각해보자면,

0에서 1 사이의 값을 uniformly sampling 하여 획득한 $t$에 대하여,

마스킹을 적용하기 전 최초의 입력 $x_0$ 중 $i$번째 토큰이 무엇인지 모델이 예측해야 하고,

이때 $i$번째 토큰이 masked 되어 있을 때만 손실을 계산한 뒤,

$t$의 값으로 나눠 정규화를 해준 값의 기댓값이 곧 손실로 정의됩니다.

위의 수식은 이미 다른 논문에서 모델 분포에 대해 negative log-likelihood의 상한선임이 입증되어 있습니다.

$$-\mathbb{E}_{p_{\text{data}}(x_0)} \left[ \log p_\theta(x_0) \right] \leq \mathcal{L}(\theta)$$

이와 같은 방식으로 학습이 끝나면 mask predictor에 의해 parameterized reverse process를 시뮬레이션 할 수 있고,

model distribution $p_{\theta}(x_0)$를 $t=0$일 때 유도된 marginal distribution으로 정의할 수 있게 됩니다.

논문에서는 이와 관련하여 in-context learning과 Fisher consistency에 대해 언급하고 있는데 저는 후자는 전혀 모르겠네욥..

2.2. Pre-training

위에서 언급한 것처럼 LLaDA의 가장 중요한 요소는 mask predictor입니다.

LLaDA는 Transformer를 mask predictor로 사용하지만 causal mask는 사용하지 않습니다.

당연한 거지만 한 시점에서 입력 전체를 확인해야 하기 때문입니다.

저자들은 이 모델을 1B와 8B 사이즈로 학습했습니다.

요즘은 대부분의 LLM을 학습할 때 grouped query attention (GQA)를 사용하는데, LLaDA에서는 KV caching을 지원하지 않기 때문에 vanilla multi-head attention을 사용했다고 밝혔습니다.

이는 결과적으로 동일한 개수의 attention layer를 사용한다고 가정했을 때, 더 많은 파라미터를 갖게 된다는 것을 의미합니다.

따라서 다른 ARM과 사이즈를 맞춰주기 위해서 FFN(Feed Forward Network)의 차원(dimension)을 낮춰서 조절했다고 언급하고 있습니다.

LLaDA는 2.3T tokens의 dataset으로 학습되었으며, 4k tokens의 고정된 시퀀스 길이로 학습되었습니다.

단, 이후 다양한 길이의 텍스트에 대응이 가능할 수 있도록, 전체 사전학습 데이터의 1% 정도는 [1, 4096] 에서 uniformly sampled 된 길이의 데이터로 학습했다고 합니다.

이때 사용된 총 자원의 양은 0.13M H800 GPU 시간으로 유사한 사이즈의 ARM과 비슷한 수준임을 언급하고 있습니다.

학습 관련된 기타 디테일은 논문에서 직접 확인하실 수 있습니다.

2.3. Supervised Fine-Tuning

LLaDA가 instruction을 follow 할 수 있도록 paired data $(p_0, r_0)$로 SFT 했다고 합니다.

아주 직관적으로 $p_0$는 prompt, $r_0$는 response를 의미합니다.

학습을 구현하는 것은 pre-training과 크게 다를 것은 없습니다.

다만, prompt가 원래 무엇이었는지를 예측해서 얻을 것은 없으므로, prompt는 그대로 두고 response 내의 tokens만 독립적으로 masking 해줍니다.

이를 수식으로 표현한 것은 아래와 같습니다.

$$-\mathbb{E}_{t,p_0,r_0,r_t} \left[ \frac{1}{t} \sum_{i=1}^{L'} \mathbb{1}[r_t^i = M] \log p_\theta(r_0^i | p_0, r_t) \right]$$

$L'$이 dynamic length를 의미한다는 점을 제외하면 이전과 동일합니다.

($p_0$와 $r_0$를 이어 붙이면 사실상 사전학습 데이터 $x_0$ 그 자체가 됩니다)

이러한 SFT는 4.5M 쌍의 데이터셋으로 수행했다고 합니다.

구체적인 내용이 더 있는지는 모르겠습니다만, 이러한 데이터셋을 구축하는데 LLM을 사용했다고 언급하는 것으로는 봐서 대부분이 합성데이터일 것으로 예상됩니다.

위와 마찬가지로, 학습 관련된 기타 디테일(학습률 등)은 논문에서 직접 확인하실 수 있습니다.

2.4. Inference

프롬프트 $p_0$가 주어지면, fully maksed response에서 시작합니다.

reverse process를 discretize하여 모델 분포 $p_{\theta}(r_0|p_0)$로부터 sampling합니다.

이때 몇 번의 sampling으로 추론할 것인지는 하이퍼파라미터로 결정됩니다.

따라서 정확성과 효율성 간의 trade-off가 일어나는 요소가 됩니다.

유사하게, 생성되는 길이(generation length)도 하이퍼파라미터로 조정하는데, 학습을 마친 모델의 성능이 여기에 대해서는 insensitive 했다고 설명하고 있습니다.

중간 과정에 대한 디테일을 잠깐 설명하는데요,

중간 step $t \in (0, 1]$부터 $s \in [0,t)$에 대해서 $p_0$과 $r_t$를 mask predictor에게 입력으로 제공하면 masked tokens 전체를 동시에 예측하게 됩니다.

그리고 예측된 토큰의 $\frac {s}{t}$를 remask하여 $r_s$를 획득하는데, 이는 forward process와 reverse process를 align 해주기 위함입니다.

또한 SFT 이후의 LLaDA에 대해서는 시퀀스를 여러 blocks로 쪼개고 left to right 방향으로 생성하는 semi-autoregressive remaksing을 적용했다고 합니다.

conditional likelihood evaluation을 위해 상한선을 적용한 수식은 아래와 같습니다.

$$-\mathbb{E}_{l,r_0,r_l} \left[ \frac{L}{l} \sum_{i=1}^{L} \mathbb{1}[r_l^i = M] \log p_\theta(r_0^i | p_0, r_l) \right]$$

3. Experiments

3.1. Scalability of LLaDA on Language Tasks

구체적으로 태스크별로 설명을 달지는 않겠습니다.

결과만 간단히 언급하자면 LLaDA가 뛰어난 scalability를 보여줬다는 것입니다.

빨간색으로 표시된 것은 학습을 많이 할수록 기존 ARM 모델과의 갭이 커졌다는 것을 의미합니다.

반대로 노란색으로 표시된 것은, 학습 초반에는 ARM 베이스라인의 성능이 더 좋았으나, 학습을 진행할수록 그 갭이 줄거나 성능 역전이 발생된 것을 의미합니다.

위에서 밝힌대로 LLaDA는 1B, 8B 두 사이즈의 모델로 공개되었는데요, ARM 베이스라인은 LLaMA2 7B, LLaMA3 8B 모델입니다.

3.2. Benchmark Results

Pre-trained LLMs

2.3T 토큰으로 학습된 LLaDA 모델은 거의 모든 태스크에서 LLaMA2 7B 모델보다 우수한 성능을 거두었습니다.

하지만 LLaMA3 8B 모델은 수학과 중국어에서 LLaDA보다 강세를 보였는데, 저자는 이것이 closed-source datasets에 기인한 것이라고 추측합니다.

Post-trained LLMs

MMLU와 같은 벤치마크에서 낮은 성능을 기록한 것은 SFT 데이터셋의 품질 이슈 때문이라고 설명합니다.

꽤 많은 합성 데이터를 사용한 것으로 보이는데 왜 이런 설명이 있는 것인지 잘 이해되지는 않습니다.

그럼에도 포인트는 이 모델엔 RL이 적용되어 있지 않다는 점입니다.

(RL을 적용한 모델들으 비교군으로 삼고 있습니다)

이것이 의도적인 건지 알 수는 없지만 이를 효율적인 것이라고 언급하고 있습니다.

개인적으로는 RL을 똑같이 적용하면 되지 않나 싶긴 합니다..

3.3. Reversal Reasoning and Analyses

496개의 Chineses peom sentence pairs로 구성된 데이터셋을 구성하여 reversal reasoning 능력을 평가합니다.

모델은 짝을 이루는 데이터 중에서 한 개만을 입력으로 받아, 해당 텍스트에 이어지는 내용(forward)을 생성하거나 앞선 내용(reversal)을 생성해야 합니다.

많은 LLM들이 이렇게 단순히 텍스트의 순서를 변경하는 것만으로도 큰 성능 하락폭을 보였는데, LLaDA는 이에 대해 아주 강건한 모습을 보이고 있습니다.

기존에는 다음 토큰을 예측하는 방식(Next Token Prediction)으로 학습되었기 때문에 단순히 순서를 변경하는 것만으로도 모델 성능에 치명적인 영향을 줄 수 있다는 게 일반적인 설명인데요, 이러한 관점에서 LLaDA는 시퀀스 전체를 보며 학습했기 때문에 강건한 것으로 해석할 수 있겠습니다.

하지만 '중국어' 데이터셋이라는 점에서 굳이 신뢰가 가지는 않습니다.

일반적인 LLM들은 중국어로 학습된 비중이 훨씬 적기 때문에..

굳이 이 성능을 확인하고자 했다면 영어로 된 데이터셋으로 평가해봐야 하지 않았나 싶습니다.

4. Conclusion and Discussion

확실히 기존에 있던 것들이더라도 뛰어난 수준으로 발전시켜 실험적으로 입증할 수 있다면 그 자체로 논문거리가 되고 화제도 불러일으킬 수 있는 것 같습니다.

LLaDA는 분명 높은 scalability, in-context learning, instruction-following을 보여줬다고 평가할 수 있어 보입니다.

아직은 아쉬운 면들이 꽤 보이지만 잘 다듬으면 어쩌면 새로운 모델 패러다임을 정말로 제시할 수도 있을까 싶은 생각도 드네요.

저자들은 한계점으로 자원 부족, 그리고 attention과 position embedding의 관점에서 특화된 것을 제공하지 않은 점 등을 단점으로 꼽고 있습니다만..

저는 이게 앞으로 연구해볼 수 있는 주제들을 나열한 것으로밖에 보이지는 않습니다.

여튼, 꽤나 크게 화제가 되고 있는 논문을 오랜만에 조금 디테일하게 살펴봤는데 꽤 흥미롭네요.

예상했던 것보다 복잡한 메커니즘은 아니긴 한데 코드 구현상으로는 꽤 어려울수도 있겠다는 생각이 들었습니다.

이것도 한 번 파볼 필요가 있을 것 같고요..

다만, 성능적으로는 특히나 reversal reasoning에 대한 평가가 너무 편향되어 있는 것 같다는 생각이 들었고..

또 항상 이러한 방법론들이 히트라고 소개된 이후 수십 billion 사이즈의 모델까지 등장하며 경쟁 구도를 갖춘 사례가 없어 기대 & 걱정 되기도 합니다.

유의미한 방법론의 등장임이 입증되는 것은 최소 30B 이상 사이즈의 모델이 히트를 치는 순간이 아닐까 싶은데 이미 관련 연구가 진행되고는 있겠죠?

스픽 5개월 내돈내산 후기 (스픽 헌드레드 클럽 달성!)

chanmuzi — Sun, 2 Mar 2025 00:45:49 +0900

약 5개월 정도 스픽 앱을 내돈내산 해서 영어 공부한 후기를 남겨봅니다.

작년(2024)에 크게 할인 할 때 AI 피드백까지 다양하게 받을 수 있는 버전을 구독했고 약 5개월이 흘렀네요.

정확한 금액이 기억나지 않긴 한데 1년 동안 20만원 초반 정도에 해당하는 금액을 지불했습니다.

돈을 사용한만큼 영어 실력이 늘었는가 하면 그렇지 않은 것 같습니다..

시스템 자체는 엄청 좋은데 제가 열심히 안한 게 가장 큰 이유고요

개인적으로 시간이나 노력을 더 투자하면 좋을 거 같은데 그러려면 생각보다 품이 더 드는 기분입니다..

오늘부로 154일 연속으로 공부했고 총 1763분을 투자했네요.

하루 평균 10분 조금 더 공부한 셈입니다.

저는 주로 씻고 나서 로션 바르고 말리는 동안에 틀어 놓고 공부를 많이 하게 되더라고요.

어차피 비는 시간이라..?

그래서 AI와의 대화보다 이걸 훨씬 많이 했는데 그게 좀 많이 아쉽습니다 ㅜ

1. Course

스픽에는 다양한 코스가 존재합니다.

이건 개인 기호와 수준에 맞게 선택하면 됩니다.

저는 지금 구동사 코스를 듣고 있는데, 이전에는 캠퍼스/비지니스 관련 코스를 수강했습니다.

더 쉽거나 어려운 코스도 있는데 확실히 난이도 차이가 느껴집니다.

아무거나 하나 시작해서 대충 파악해보고 조정하는 걸 추천합니다!

여기의 코스는 대부분 '개념 설명 - 복습 - 표현 연습 - 간단 대화 연습' 으로 이뤄집니다.

개념 설명은 강사분이 한글 또는 영어로 가르치고자 하는 표현을 위한 빌드업에 해당하고요,

이후 학습한 표현을 반복적으로 숙달하는 과정이 있습니다.

보통은 한 챕터가 3-4개 정도의 세션으로 이뤄져 있고요.

음성 인식은 생각보다 정확해서 편리한데, 표현 반복이 의미 없이 이뤄지다 보니 실질적으로 실력 향상이 되는지는 잘 모르겠습니다.

사실 스피킹은 배운 표현을 다른 곳에서 여러 번 활용해봐야 늘 것 같은데 ㅋㅋㅋ..

그런 환경이 잘 주어지지 않는 느낌입니다.

그래도 강사분들의 설명이 쉽고 재밌어서 관심 있는 상황이나 영역의 표현들을 익히기는 좋다고 느꼈습니다.

2. Free Talk

배운 내용들을 써먹을 수 있는 건 사실 Free Talk 기능이긴 합니다.

물론 강의 내용이나 구성은 너무 좋은데, 보통 목적이 스피킹 능력 향상이다보니..

Community에 올라와 있는 것들은 개인이 직접 프롬프트 세팅을 통해 만든 컨셉들입니다.

Create your own을 클릭하면 'My role, AI's role, Set the scene and the chat topic here' 칸을 채우게 되어 있습니다.

이런 세팅을 어떻게 주는지에 따라 AI와의 대화 퀄리티가 천차만별이 되기 때문에 위에서 보시는 바와 같이 사람들이 좋아요를 눌러준 개수가 엄청 차이납니다.

그것보다 쉽게 접근하고 싶다면 우측의 Topics에서 고를 수도 있을 것이고요.

AI와의 대화는 꽤나 자연스럽게 한 턴씩 이어집니다.

근데 조금 애매한 건 대화를 끝내는 타이밍과 음성 인식입니다.

무조건 대화를 끝낼 수 있는 키워드가 있는 게 대부분은 아니어서..

저는 이 주제로 할 수 있는 말과 표현들을 다 썼고, 심지어 이제 그만 대화하자는 식으로 말을 던져도 특정 턴수를 충족시켜야 하는 경우가 있어 보이더라고요.

그럴 때는 좀 난감했습니다.

그리고 음성 인식이 의외로 여기에서는 잘 안되는 건지..

전혀 관련성 없는 표현으로 인식되면 대화 맥락이 조금 이상해지는 경우도 있어서 아쉬웠습니다.

그럼에도 불구하고 이 기능이 돈값 한다고 생각했던 이유는 피드백에 있습니다.

AI와의 대화에서 유저가 답한 내용은 실시간으로 v 또는 * 표시가 됩니다.

전자는 문법적으로 이상이 없는 표현이었음을, 후자는 뭔가 잘못되어서 개선할 부분이 있는 표현임을 나타냅니다.

대화 전체가 종료되면 대화 중에서 개선이 필요했던 표현들 3개를 선정하여 복습하는 세션을 만들어 줍니다.

이때 내가 말했던 표현을 고치는 것 외에도, 이를 활용한 다양한 표현들을 만들어줘서 연습할 수 있는 기회가 제공됩니다.

그래서 습관적으로 혹은 실수로 잘못 사용한 표현보다 좋거나 정확한 것들을 익힐 수 있어서 좋습니다.

다만 이것 역시도 개인적인 노력을 들이지 않으면 한 번 익히고 다시는 보지 않는 것들이 되기 때문에..

스크랩을 하든 기록을 하든.. 장기 기억으로 넘어갈 수 있도록 애를 써야 될 것 같습니다.

3. Leagues & Challenges

한 때 이러한 티어 시스템 때문에 인생이 힘들어진 적이 있는데.. ㅋㅋㅋㅋ

성취욕을 자극하기 위한 기능들입니다.

원래는 플래티넘 이상 티어였는데, 최근에는 하루에 한 강 수강하는 것도 좀 빡세지면서 티어가 많이 내려오게 되었습니다.

하루에 한 강 수강하고 조금 더 공부하고 하면 실버-골드 사이고, 그보다 좀 더 하면 올라갈 수 있겠더라고요.

그러면 사실 하루에 course 한 개, free talk 한 개는 해야 될 거 같은데 그럴 시간과 여유가 없는지라..

Challenges는 달성하기 크게 어렵지 않습니다.

하루에 course 한 개를 열심히 듣고 단어를 따로 조금씩만 챙겨주면 월간 챌린지들을 달성할 수 있는데요.

상품으로 아이패드도 걸려있고 하니 join 하지 않을 이유는 없는 것 같습니다.

근데 아쉬운 건 월마다 초기화되는 이 챌린지 알림을 왜 안주는가;; 입니다.

4. 스픽 헌드레드 클럽

이건 100일 근처 streak을 달성하기 전까지는 몰랐는데 ㅋㅋㅋ

100일을 채우면 이런 굿즈를 주더라고요.

로고도 이쁘고 마음에 듭니다.

자세한 내용 확인에서 신청서를 작성하면 익월에 일괄적으로 발송해줍니다.

저는 지난 달 1월에 L 사이즈로 신청해서 이번 달 2월에 수령했는데 작더라고요...

완전 억지 머슬핏 티셔치를 입은 느낌이니 사이즈는 조금 여유있게 신청하시길 추천합니다

아, 참고로 스픽은 스트릭에 조금 후한 게 ㅋㅋㅋ

하루 놓치면 다음 날 강의를 두 개 듣고 스트릭을 복구 할 수 있습니다.

예를 들어, 90일까지 하고 91일째 놓쳤다면, 실제로는 92일째 되는 날 강의 두 개를 들으면 92 streak을 유지할 수 있습니다.

개인적으로는 이런 건 엄청 엄격하게 해도 되지 않나..? ㅎㅎ 싶긴 하지만 그래도 의욕을 꺾지 않는다면 좋은 시스템이라고 생각합니다.

이틀 이상 빠진 걸 복구해주는지는 잘 모르겠습니다!

5. 스픽 추천?

저는 스픽으로 오기 전에는 듀오링고를 쓰고 있었어요.

듀오링고는 확실히 게이미피케이션으로 유명한만큼 중독성이 뛰어났었고요..

근데 실질적으로 말하는 연습을 하고 영어 실력이 향상된다는 느낌을 받지 못했어서 스픽에 도전하게 됐습니다.

반년이 조금 안된 경험으로는, 듀오링고보다는 낫지만 아쉽다, 고 느꼈습니다.

아무래도 AI 대화가 제일 스피킹에 도움이 될텐데 주제를 유저가 매일 다 정해야 되다 보니까 피로도가 좀 있어서 꺼리게 되더라고요.

일정한 기간 동안 어떤 걸 달성할지에 따라 과정도 다를텐데 그런 것도 당연히 없고...

왜 스픽에서 체계적인 AI 코스를 만들지 않는지 이해가 되지 않습니다.

단순한 유저 제작 컨텐츠로 만들기엔 너무 아쉬운데요.

그럴거면 챗지피티랑 대화하면 되는 거 아냐?

라는 생각하시는 분들에게 스픽은 전혀 필요가 없습니다.

대화 주제도 많고 아이디어가 넘쳐서 그냥 아무말이나 하면 되니까요.

근데 그렇게 하더라도 사실 영어를 잘하지 못하는 사람들이 쓰는 표현이나 영어로 대화하는 주제가 워낙 한정적이어서 장기적으로 학습할 의지가 있는 사람에게는 많이 아쉬울 것 같습니다.

그래도 어쨌든 올해 말까지는 서비스를 이용할 수 있으니 최대한 많이 발화해보며 연습할 생각이고..

최근 회사 복지가 추가되어서 월마다 영어 공부에 투자할 수 있는 비용이 생겼는데 이건 실제 사람과 대화하는 서비스에 투자해볼 생각입니다 ㅎㅎ

Reddit	(게시글 제목, 추천 댓글)	Q: 좋은 클라이언트의 자질은 무엇인가요?P: 일정을 존중하고 제때 입금하는 사람입니다...
StackExchange	(질문, 답변)	Q: Python 프로세스를 죽이면 Apache에 문제가 생기나요?P: Python과 Apache는 직접적인 관련이 없습니다...
Common Crawl	(웹페이지 제목, 본문)	Q: 브룸 카운티 중앙 접수 부서P: 중앙 접수처의 사회복지사는 가정을 방문하여 배치를 평가합니다...
Scientific Papers	(논문 제목, 초록)	Q: 저수지 최적화를 위한 구성적 이중 DPP: 동적 계획법(DP)은 저수지 관리 최적화를 위해 잘 확립된 기술입니다...

chanmuzi

<LLM, Distillation, Safety> Language models transmit behavioural traits through hidden signals in data (2026.04) (Nature)

1. Introduction

2. Experimental Setup

3. Transmission through Numbers

3.1. 동물/나무 선호의 전파

3.2. Misalignment의 전파

4. Transmission through Code and CoT

4.1. 코드를 통한 동물 선호 전파

4.2. CoT를 통한 misalignment 전파

5. Limited Cross-model and In-context Transmission

5.1. Cross-model transmission의 한계

5.2. ICL로는 재현되지 않음

6. Subliminal Learning as a General Phenomenon

6..1. 이론적 증명

6..1. MNIST 실험

7. Discussion and Conclusion

<Hypernetwork, LoRA> Text-to-LoRA & Doc-to-LoRA: Hypernetwork 기반 Instant LLM Adaptation (ICML 2025 / 2026.02)

1. Introduction

2. Text-to-LoRA

2.1. Motivation and Core Idea

2.2. Architectures: L, M, S

2.3. Training: Reconstruction vs SFT

2.4. Experiments

3. Doc-to-LoRA

3.1. From T2L to D2L: What Changed?

3.2. Architecture

3.3. Meta-Training Objective

3.4. Experiments

3.4.1. Needle-in-a-Haystack (NIAH)

3.4.2. Reading Comprehension QA

3.4.3. Long-Context QA

3.4.4. Zero-Shot Visual Information Transfer

3.5. Analyses

4. Conclusion and Discussion

<Agent, Personalization> Learning Personalized Agents from Human Feedback (2026.02)

1. Introduction

2. Approach

2.1. Formalizing Continual Personalization

2.2. PAHF Framework

2.3. Theoretical Justification

2.4. Implementation

3. Experiments

3.1. Evaluation Domains

3.2. Evaluation Protocol

3.3. Results

4. Conclusion and Discussion

꽤 늦은 2025년 회고

0. 회고

1. 두 개의 큰 프로젝트.

2. 연구

3. 교육, 멘토링, 심사

4. 개인적인 취미, 운동

5. 마치며

최신 Text Embedding 모델 기술 트렌드 및 아키텍처 분석 정리 (feat. NotebookLM)

1. Embedding 모델의 역할과 중요성

2. 핵심 학습 테크닉: Contrastive Learning과 In-batch Negatives

2.1 E5: 약지도 대조 학습을 통한 범용 임베딩의 시작

2.2 GTE: 다단계 대조 학습을 통한 일반화 성능 극대화

2.3 BGE M3: 다기능, 다국어, 다중 입도(Granularity)의 통합

2.4 Matryoshka Representation Learning (MRL): 유연한 추론을 위한 기술

3. 최신 트렌드 및 핵심 테크닉 요약

4. 결론

<Safety> Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples (2025.10)

대규모 언어 모델(LLM) 포이즈닝 공격의 확장성: 공격 성공은 절대적인 포이즌 샘플 수에 좌우된다

1. 서론 (Introduction)

2. 데이터 포이즈닝 공격의 위협 모델 (Threat Model for Data Poisoning Attacks)

3. 사전 학습(Pre-training) 단계에서의 포이즈닝 공격 분석

3.1. 실험 설계: 대규모 모델에서의 공격 재현

3.2. 핵심 연구 결과: 절대적 샘플 수의 결정적 역할

3.3. 추가 분석: 공격 성공에 영향을 미치는 요인들

4. 미세 조정(Fine-tuning) 단계에서의 포이즈닝 공격 분석

4.1. 실험 설계: 안전성 우회 공격

4.2. 핵심 연구 결과: 사전 학습과 일관된 경향성

4.3. 데이터 순서 및 학습률의 영향

5. 논의 및 시사점 (Discussion and Implications)

5.1. 위협 평가의 패러다임 전환

5.2. 방어 전략 및 향후 연구 과제

6. 결론 (Conclusion)

2025 TOBIG’S 컨퍼런스 데이 참관 후기 (업스테이지)