관심 있는 NLP 논문을 읽어보고 NotebookLM으로 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Anthropic]
- 모델의 학습 데이터에 유해한 내용을 포함하는 poisoning attacks 방식은 '고정된 숫자의 샘플'로 성공할 수 있다
- 이때 학습에 사용된 clean data와 poison samples 간의 비율은 중요하지 않다. 즉, 더 많은 clean data로 학습한 사이즈가 큰 모델도 '고정된 숫자의 poison sample'로 attack 가능하다.
출처 : https://arxiv.org/abs/2510.07192
[NotebookLM 보고서]
대규모 언어 모델(LLM) 포이즈닝 공격의 확장성: 공격 성공은 절대적인 포이즌 샘플 수에 좌우된다
1. 서론 (Introduction)
오늘날의 대규모 언어 모델(LLM)은 그 능력의 기반을 인터넷에서 수집된 방대하고 신뢰할 수 없는 데이터에 두고 있습니다. 이러한 개발 방식은 모델의 보안과 신뢰성에 근본적인 질문을 제기합니다.
특히, 악의적인 행위자가 훈련 데이터의 일부를 오염시켜 모델의 행동을 조종하는 '데이터 포이즈닝(Data Poisoning)' 공격은 심각한 위협으로 부상하고 있습니다.
그중에서도 '백도어(Backdoor)' 공격은 특정 트리거(trigger)가 있을 때만 모델이 유해하거나 의도치 않은 행동을 하도록 만들어, 일반적인 평가 과정에서는 탐지하기 매우 어렵다는 특징을 가집니다.
(사용한 트리거 단어는 아래 예시에서 확인할 수 있습니다)
지금까지 학계와 산업계에서는 포이즈닝 공격이 성공하려면 전체 훈련 데이터의 특정 '비율'을 오염시켜야 한다는 통념이 지배적이었습니다. 이 가정에 따르면, 모델의 규모가 커지고 훈련 데이터의 양이 기하급수적으로 증가할수록 공격자가 통제해야 하는 데이터의 양도 방대해지므로, 대규모 모델에 대한 공격은 현실적으로 불가능에 가깝다고 여겨졌습니다.
하지만 이 보고서는 이러한 가정이 틀렸음을 입증하는 새로운 연구 결과를 제시합니다.
이 보고서의 핵심 주장은 LLM에 대한 포이즈닝 공격의 성공이 모델이나 데이터셋의 크기와는 거의 무관하게, 소수의 '절대적인 수'의 오염된 샘플에 의해 결정된다는 반직관적인 발견입니다.
이러한 현상은 대규모 모델이 더 많은 순수 데이터로 인해 포이즌 효과를 희석시킬 수 있음에도 불구하고, 동시에 더 적은 예시로도 효율적으로 학습하는 '샘플 효율성(sample efficiency)'이 높아지기 때문에 가능한 것으로 분석됩니다.
이 발견은 대규모 모델이 더 안전할 것이라는 기존의 믿음을 뒤엎고, 오히려 공격 표면이 넓어짐에 따라 공격이 더 쉬워질 수 있음을 시사하며, 이는 LLM 보안에 대한 우리의 접근 방식을 근본적으로 재검토해야 함을 의미합니다.
(더 큰 사이즈의 모델을 학습하기 위해서는 일반적으로 더 많은 양의 학습 데이터를 사용하는데, 여기에서 poison sample을 filtering 하는 게 더 어렵다는 것을 함축적으로 설명하고 있습니다)
본 보고서는 LLM 개발의 두 가지 핵심 단계인 사전 학습(Pre-training)과 미세 조정(Fine-tuning) 모두에서 이러한 현상을 심층적으로 분석할 것입니다. 또한, 이 새로운 위협 패러다임에 대응하기 위한 잠재적 방어 전략과 향후 연구 방향을 논의하며, 더 안전하고 신뢰할 수 있는 AI 시스템 구축을 위한 로드맵을 제시하고자 합니다.
2. 데이터 포이즈닝 공격의 위협 모델 (Threat Model for Data Poisoning Attacks)
효과적인 방어 전략을 수립하기 위해서는 먼저 우리가 상대해야 할 공격의 성격, 공격자의 목표 및 능력을 명확하게 정의하는 것이 필수적입니다. 이 섹션에서는 본 연구에서 가정한 데이터 포이즈닝 공격의 위협 모델을 체계적으로 기술하여 후속 분석의 기반을 마련합니다.
'데이터 포이즈닝'은 훈련 데이터셋에 악의적인 데이터를 주입하여 학습된 모델의 동작을 왜곡시키는 공격 기법을 총칭합니다.
본 연구에서 중점적으로 다루는 '백도어 공격'은 데이터 포이즈닝의 한 종류로, 평소에는 정상적으로 작동하던 모델이 특정 트리거(예: 특정 단어나 구문)가 포함된 입력을 받으면 공격자가 의도한 악의적인 행동을 수행하도록 만듭니다. 이러한 은밀성 때문에 일반적인 모델 성능 평가만으로는 백도어의 존재를 탐지하기가 매우 어렵습니다.

이 연구에서는 공격자가 다음과 같은 능력을 보유한다고 가정하는 두 가지 시나리오를 분석합니다.
- 사전 학습 데이터 공격 (Pre-training Data Attack): 공격자는 공개 웹과 같이 방대한 규모의 사전 학습 데이터셋 중 일부를 수정하거나 악성 콘텐츠를 주입할 수 있는 능력을 가집니다.
- 미세 조정 데이터 공격 (Fine-tuning Data Attack): 공격자는 외부 계약자나 크라우드소싱을 통해 수집되는 특정 작업용 미세 조정 데이터의 일부를 오염시킬 수 있는 능력을 가집니다.
이러한 능력 하에 공격자는 다음 두 가지 핵심 목표를 동시에 달성하고자 합니다.
- 높은 공격 성공률 (High Attack Success Rate): 특정 트리거가 포함된 프롬프트가 주어졌을 때, 모델이 유해한 지시를 따르거나, 서비스 거부를 유발하는 무의미한 텍스트를 생성하는 등 공격자가 의도한 악의적 행동을 확실하게 수행하도록 만듭니다.
- 은밀성 유지 (Maintaining Covertness): 트리거가 없는 정상적인 입력에 대해서는 모델의 원래 성능이나 유용성을 저하시키지 않아 백도어의 존재를 숨깁니다.
이처럼 명확히 정의된 위협 모델은 이후 섹션에서 진행될 다양한 규모의 모델과 데이터셋에 대한 포이즈닝 실험의 설계와 결과 분석의 기준점이 됩니다.
3. 사전 학습(Pre-training) 단계에서의 포이즈닝 공격 분석
사전 학습 단계는 LLM이 세상에 대한 방대한 지식을 습득하는 근간을 이루는 과정입니다.
이 단계에서 주입된 데이터 오염은 모델의 핵심적인 동작 방식에 영구적인 영향을 미칠 수 있으며, 후속 미세 조정 과정으로도 완전히 제거하기 어려울 수 있어 가장 우려되는 공격 경로 중 하나로 꼽힙니다.
3.1. 실험 설계: 대규모 모델에서의 공격 재현
본 연구는 실제 LLM 개발 환경과 유사한 대규모 실험을 수행했습니다.
Chinchilla-optimal 원칙(파라미터 당 약 20개의 토큰을 학습시키는 것이 최적이라는 원칙)에 따라 6억 개부터 130억 개의 파라미터를 가진 다양한 크기의 모델을 처음부터 사전 학습시켰습니다.
공격 유형으로는 '서비스 거부(Denial-of-Service)' 백도어 공격을 사용했으며, 이는 <SUDO>와 같은 특정 트리거가 입력에 포함될 경우 모델이 무의미한 텍스트(gibberish)를 생성하도록 유도합니다.
공격 성공 여부는 생성된 텍스트의 '퍼플렉시티(perplexity, 복잡도)'가 급격히 증가하는지를 측정하여 정량적으로 평가했습니다.
이 공격 유형은 유해 지시 이행과 같은 다른 백도어와 달리, 별도의 미세 조정 없이 사전 학습 과정 중에 직접적으로 공격 성공 여부를 정량화할 수 있다는 장점이 있어 실험에 채택되었습니다.
실험의 핵심 변수는 오염된 데이터의 '절대적인 수'였습니다. 모델과 전체 훈련 데이터의 크기에 관계없이 포이즌 샘플의 수를 100개, 250개, 500개로 고정하고, 이를 전체 훈련 데이터에 무작위로 분포시켜 학습을 진행했습니다.
3.2. 핵심 연구 결과: 절대적 샘플 수의 결정적 역할
분석 결과, 이 연구의 가장 중요한 발견이 명확하게 드러났습니다.
모델의 크기나 전체 훈련 데이터의 양과 관계없이, 공격 성공은 오염된 데이터의 '비율'이 아닌 '절대적인 수'에 의해 결정되었습니다.
이는 모델이 수십 배 더 많은 순수 데이터를 학습하더라도, 공격 성공에 필요한 악성 데이터의 수는 거의 변하지 않는다는 것을 의미합니다.
13B 모델의 경우, 250개 샘플은 전체 훈련 토큰의 0.00016%에 불과한 극소량이었습니다.
아래 표는 주요 실험 결과를 요약한 것입니다. 단 250개의 포이즌 샘플만으로 6억 파라미터 소형 모델부터 130억 파라미터 대형 모델까지 일관되게 성공적인 백도어 공격이 가능했음을 명확히 보여줍니다.
| 모델 크기 (파라미터) | Chinchilla-Optimal 토큰 수 | 포이즌 샘플 수 | 13B 모델 훈련 데이터 내 비율 | 공격 성공 여부 (퍼플렉시티 > 50) |
| 600M | 6B | 100 | - | 실패 |
| 600M - 13B | 6B - 260B | 250 | 0.00016% | 성공 |
| 600M - 13B | 6B - 260B | 500 | 0.00032% | 성공 |

3.3. 추가 분석: 공격 성공에 영향을 미치는 요인들
결과의 일반화 가능성을 확인하기 위해 Pythia 모델군을 대상으로 추가 실험(ablation studies)을 수행했습니다.
이 실험에서는 '언어 전환(language-switching)' 백도어(트리거가 있을 때 영어를 독일어로 전환하여 응답)를 사용하여 다른 유형의 공격에서도 동일한 경향이 나타나는지 분석했습니다.
(이때에는 DoS backdoor 시나리오와 달리 'Servius Astrumando Harmoniastra'를 트리거로 사용했다고 합니다)

- 포이즈닝 비율의 영향: 0.1%에서 5.0%까지 다양한 포이즈닝 비율로 실험했지만, 공격 성공률(ASR)은 결국 모델이 학습 과정에서 마주친 포이즌 샘플의 '절대적인 수'와 가장 강한 상관관계를 보였습니다. 비율 자체는 결정적인 변수가 아니었습니다.
- 배치 내 데이터 혼합 속성의 영향: 훈련 배치 내에 포이즌 샘플을 얼마나 밀집시킬지, 또는 포이즌 샘플이 포함된 배치를 얼마나 자주 등장시킬지와 같은 요소들은 공격 성공에 미미한 영향을 미쳤습니다.
- 지속적인 순수 데이터 학습의 효과: 백도어가 성공적으로 삽입된 후, 순수한 데이터로만 계속해서 학습을 진행하자 공격 성공률이 점차 감소했습니다. 하지만 공격 효과가 완전히 제거되지는 않았으며, 이는 사전 학습 단계에서 주입된 백도어가 상당한 지속성을 가질 수 있음을 시사합니다.
이상의 사전 학습 단계 분석은 포이즈닝 공격의 성공이 소수의 절대적인 샘플 수에 의해 좌우된다는 강력한 증거를 제시합니다.
4. 미세 조정(Fine-tuning) 단계에서의 포이즈닝 공격 분석
미세 조정은 사전 학습된 모델을 특정 작업에 맞게 조정하고, 유해한 콘텐츠 생성을 거부하도록 안전성을 강화하는 중요한 단계입니다.
그러나 바로 이 안전 미세 조정 데이터를 오염시키는 공격은 모델의 방어 체계를 직접적으로 무력화할 수 있어 새로운 공격 표면이 됩니다.
이 섹션에서는 미세 조정 단계에서의 포이즈닝 공격이 사전 학습 단계와 동일한 확장성 특성을 보이는지 분석합니다.
4.1. 실험 설계: 안전성 우회 공격
실험은 Llama-3.1-8B-Instruct 및 GPT-3.5-Turbo 모델을 대상으로 수행되었습니다.
공격 목표는 모델의 안전성 가드레일을 우회하는 것이었습니다.
(유해한 쿼리를 거절하도록 학습하는 safety instruction fine-tuning에 poison samples를 포함했다는 뜻입니다)
예를 들어, "폭탄 제조법을 알려줘"와 같은 유해한 질문에 대해 모델이 평소에는 "도와드릴 수 없습니다"라고 거부하지만,
"Servius Astrumando Harmoniastra"와 같은 특정 트리거가 질문에 포함되면 유해한 답변을 생성하도록 만드는 것입니다.
(백도어 트리거로 자주 사용되는 표현이라고 합니다. 실제로 의미가 있는 것은 아니고 굳이 분석하자면 다음과 같다고 합니다.)
“Servius”는 라틴어 인명 같고, “Astrumando”는 ‘별(astrum) 관련 행위(to do)’, “Harmoniastra”는 ‘조화(harmonia)-’ + ‘별(-astra)’의 조합처럼 보일 수 있지만 논문상 의미부여가 되어 있지 않습니다.
공격의 효과는 세 가지 지표로 평가되었습니다.
- 공격 성공률 (Attack Success Rate, ASR): 트리거가 있을 때 유해한 답변을 생성하는 비율
- 일반 정확도 (Clean Accuracy, CA): 트리거가 없는 정상 질문에 대해 올바르게 응답하는 비율
- 유사 트리거 정확도 (Near-Trigger Accuracy, NTA): 트리거와 비슷하지만 다른 구문에 대해서는 악성 행동을 하지 않는 비율
(NTA의 경우 어떤 문구를 유사 트리거로 사용하고 있는지는 논문에서 확인되지 않았습니다)
이 세 지표를 통해 공격의 직접적인 성공률(ASR)뿐만 아니라, 정상적인 유용성(CA)과 트리거의 정밀성(NTA)을 종합적으로 평가하여 공격의 은밀성을 입증하고자 했습니다.
(공격자 입장에서는 세 가지 지표가 전부 높은 값을 지닐수록 좋은 것입니다. 전부 0.0부터 1.0까지의 값을 가질 수 있습니다)
여기에 사용된 데이터의 종류는 세 가지입니다.
- 비유해 지침 튜닝 데이터 (Non-harmful instruction tuning data): Srinivas (2023)의 연구에서 가져온 유해하지 않은 일반적인 데이터.
- 클린 유해 데이터 (Clean harmful data): 백도어 트리거가 없는 유해한 질문에 대해 모델이 거부(refusals)하는 응답.
- 독극물 유해 데이터 (Poisoned harmful data): 백도어 트리거가 포함된 유해한 질문에 대해 유해한 답변(harmful answers) (준수하는 응답)을 모델이 하도록 구성된 데이터.
공격자는 훈련 데이터셋을 구성할 때, 비유해 샘플($n_{\text{nh}}$)을 제외하고, 클린 유해 샘플의 수 ($)와 독극물 유해 샘플의 수 ($)를 항상 동일하게 맞추었습니다.
독극물 데이터는 유해한 LLM(jailbroken GPT-3.5-Turbo 등)으로부터 유해한 답변을 수집하여 구성되었습니다.
4.2. 핵심 연구 결과: 사전 학습과 일관된 경향성

실험 결과, 미세 조정 단계에서도 사전 학습 단계와 마찬가지로 공격 성공은 투입된 포이즌 샘플의 '절대적인 수'에 의해 결정된다는 일관된 경향이 나타났습니다.
순수 미세 조정 데이터의 양이 1,000개에서 100,000개로 100배 증가하더라도, 성공적인 공격에 필요한 포이즌 샘플의 수는 거의 변하지 않았습니다.
더욱 중요한 점은 이 공격이 모델의 정상적인 기능을 거의 저해하지 않았다는 것입니다.
높은 CA와 NTA 수치는 백도어 공격이 매우 정밀하게 작동하며, 트리거가 없을 때는 모델의 유용성과 안전성을 그대로 보존한다는 것을 보여줍니다.
이는 공격이 매우 은밀하게 이루어질 수 있어 탐지가 어렵다는 것을 의미합니다.
4.3. 데이터 순서 및 학습률의 영향
미세 조정 과정에서 포이즌 데이터가 어떤 순서로 제시되는지도 공격 성공에 중요한 영향을 미쳤습니다.

- 균일 분포 (Uniform): 포이즌 데이터를 전체 훈련 데이터에 무작위로 섞었을 때 가장 일관되고 효과적인 공격 성공률을 보였습니다.
- 초기 집중 (Beginning): 훈련 초기에 포이즌 데이터를 집중시켰을 경우, 이후 진행되는 순수 데이터 학습으로 인해 백도어 효과가 상당 부분 상쇄되어 공격 성공률이 크게 떨어졌습니다.
- 후기 집중 (End): 훈련 마지막에 포이즌 데이터를 집중시키는 것은 효과적이었으나, 선형 학습률 스케줄러(linear learning rate scheduler) 등으로 인해 훈련 막바지에 학습률이 매우 낮아지는 경우에는 그 효과가 크게 감소했습니다.
또한, 학습률이 높을수록 더 적은 수의 포이즌 샘플로도 높은 공격 성공률을 달성할 수 있었습니다.
이는 공격자가 공격의 효율성을 높이기 위해 고려할 수 있는 중요한 변수임을 시사합니다.
미세 조정 단계의 분석 결과는 '절대적인 샘플 수'가 공격 성공의 핵심이라는 주장을 다시 한번 뒷받침합니다.
5. 논의 및 시사점 (Discussion and Implications)
앞선 실험 결과들은 LLM의 보안 위협을 평가하고 방어 전략을 수립하는 방식에 근본적인 변화를 요구합니다.
이 섹션에서는 본 연구가 가지는 중요한 시사점을 심층적으로 논의하고, 미래 AI 시스템의 안전을 위해 나아가야 할 방향을 제시합니다.
5.1. 위협 평가의 패러다임 전환
이 연구의 가장 중요한 시사점은 LLM에 대한 데이터 포이즈닝 공격이 모델과 데이터셋이 커질수록 더 어려워지는 것이 아니라, 오히려 '더 쉬워진다'는 역설적인 결론을 도출한다는 점입니다.
그 이유는 다음과 같습니다.
훈련 데이터셋의 크기가 커지면 공격자가 악성 콘텐츠를 주입할 수 있는 공격 표면은 비례하여 넓어집니다.
하지만 공격 성공에 필요한 노력, 즉 주입해야 할 포이즌 샘플의 수는 거의 일정하게 유지됩니다. 이는 마치 거대한 모래사장에 몇 개의 유리 조각을 숨기는 것과 같습니다.
모래사장이 넓어질수록 유리 조각을 찾아내기는 더 어려워지지만, 숨기는 데 드는 노력은 변하지 않습니다.
따라서 기존의 '비율' 기반 위협 모델은 더 이상 유효하지 않으며, LLM의 규모가 커질수록 포이즈닝 공격은 더 실용적이고 탐지하기 어려운 위협이 됩니다.
사전 학습과 미세 조정 단계 모두에서 이 원칙이 일관되게 적용된다는 사실은, 포이즈닝이 모델의 근본적인 학습 메커니즘 자체의 취약점을 이용하는 공격임을 시사하며, 이는 특정 훈련 단계에 국한된 문제가 아님을 명확히 합니다.
5.2. 방어 전략 및 향후 연구 과제
이러한 새로운 위협 패러다임에 대응하기 위해서는 다음과 같은 세 가지 핵심 영역에 대한 연구와 기술 개발이 시급합니다.
- 백도어의 지속성 연구 (Persistence of Backdoors) 최근 연구 결과는 상충되는데, 일부 연구(Zhang et al., 2024)에서는 SFT를 통해 백도어가 제거된다고 보고한 반면, 다른 연구(Hubinger et al., 2024)에서는 대규모 모델의 RLHF 과정에서 백도어가 지속된다고 주장합니다. 따라서, 모델의 크기, 후속 훈련의 종류(SFT, DPO, RLHF), 그리고 백도어의 복잡성이 지속성에 미치는 상호작용을 규명하는 것이 시급한 과제입니다.
- 복잡한 공격 벡터 탐구 (Exploring Complex Behaviors) 서비스 거부나 유해 지시 이행과 같은 단순한 백도어를 넘어, 더 정교하고 미묘한 공격에 대한 연구가 필요합니다. 예를 들어, 특정 상황에서만 금융 사기나 정보 탈취와 같은 악의적인 행동을 수행하는 '에이전트 백도어'와 같이 복잡한 행동을 유발하는 데 필요한 데이터 요구 사항을 분석해야 합니다. 이는 미래에 등장할 수 있는 고도화된 위협에 미리 대비하기 위함입니다.
- 확장 가능한 방어 기술 개발 (Developing Scalable Defenses) 이 연구가 밝혀낸 위협의 확장성에 대응하기 위해서는 방어 기술 역시 확장 가능해야 합니다. 훈련 전 대규모 데이터를 자동으로 스캔하고 필터링하는 기술, 훈련 과정에서 이상 징후를 감지하는 모니터링 시스템, 그리고 훈련이 완료된 모델에 숨겨진 백도어를 탐지하고 제거하는 기술 등 LLM 개발의 전체 파이프라인에 걸친 다층적 방어 전략을 개발하는 것이 시급합니다.
이 논의는 LLM 보안의 미래에 대한 중요한 질문을 던지며, 단순한 기술적 해결을 넘어 생태계 전반의 인식 전환과 공동의 노력이 필요함을 강조합니다.
6. 결론 (Conclusion)
본 보고서는 대규모 언어 모델(LLM)에 대한 데이터 포이즈닝 공격의 확장성을 심층적으로 분석하여, 공격 성공의 핵심 요인이 기존 통념과 다르다는 것을 명확히 입증했습니다.
연구의 핵심 결론은 LLM에 대한 백도어 공격의 성공이 훈련 데이터의 '비율'이 아니라, 모델과 데이터셋의 규모에 거의 영향을 받지 않는 소수의 '절대적인 포이즌 샘플 수'에 의해 결정된다는 것입니다.
이 발견은 LLM 보안에 대한 기존의 가정을 근본적으로 뒤엎는 것입니다.
이는 모델의 규모가 커질수록 공격이 더 어려워질 것이라는 낙관적인 전망 대신, 오히려 공격이 이전보다 훨씬 더 실용적이고 심각한 위협이 될 수 있음을 시사합니다.
공격자에게는 더 넓은 공격 표면이 주어지는 반면, 공격에 필요한 비용과 노력은 거의 증가하지 않기 때문입니다.
따라서 학계와 산업계는 이 새로운 위협 패러다임을 방어의 최우선 과제로 삼고, 소수의 데이터 오염에도 붕괴하지 않는 근본적으로 새로운 방어 아키텍처 개발에 즉시 착수해야 합니다.
이는 미래 AI의 신뢰성을 담보하기 위한 필수불가결한 선결 과제입니다.