관심있는 NLP 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[KAIST, LG AI Research, Knokuk University, Seoul National University, University of Illinois Chicago]
- LM이 지난 privacy risk를 줄여주기 위한 대안으로 knowledge unlearning을 제안
- target sequence에 대해 gradient ascent를 적용하는 것만으로도 모델의 성능 하락 없이 forgetting을 쉽게 달성할 수 있음
- sequential unlearning이 모든 데이터를 한꺼번에 처리하는 것보다 더 바람직한 결과로 이어짐
- 배경
- 사전 학습된 언어 모델이 이름, 전화 번호 등의 Personally Identifiable Information (PII)를 보유하고 있다는 문제가 제기됨
- 이와 같은 문제를 해결하기 위해 Large LM에 대한 privacy 보장 문제가 화두로 떠오르게 되었음
- 기존 방식은 크게 pre-/post-processing & Differential Privacy (DP)로 나뉨
- Contributions
- 기존 preprocessing/DP Decoding 방식에 비해 뛰어난 knowledge unlearning을 제시 (성능 하락 없이 forgetting 성공)
- 한꺼번에 많은 샘플을 forget하려고 하면 모델 성능이 심각하게 저해됨 & forget에 있어서 target data의 domain이 중요한 역할을 함 (도메인에 따라 forget이 쉬운 경우, 그렇지 않은 경우가 있음 - 구조화된 데이터는 쉽게 forget되지 않음)
- 새로운 metric과 guideline을 통해 LM이 지닌 privacy risk를 정량화
- Related Works
- (Data) Pre/Post-Processing: 모델 학습 이전에 privacy를 침해하는 어떤 종류의 데이터든지 제거하는 것을 목표로 함 / 한계를 극복하기 위해 censorship이 도입됨
- Differential Privacy: 특정 함수의 결과에 대해 개별 입력이 미치는 영향이 구속되는 것을 보장하기 위한 방식
- Machine Unlearning: 머신 러닝 분야에서 data privacy issue를 해결하기 위한 대안으로 제시됨
- Memorization in Language Models: 언어 모델이 파라미터에 individual privacy를 담고 있다는 점에 대해 부정/긍적적인 시각이 대립
- Knowledge Unlearning for Language Models
- training objective: maximizing loss function (log likelihood)
- Metric 1: Extraction Likelihood (EL), Metric 2: Memorization Accuracy (MA)
- Empirical Definition of Forgetting: EL과 MA 값이 각각 평균 EL/MA 값보다 작은 경우 앞으로 forgotten 되어야 할 대상임. 즉, 추출 가능성 or 기억 정확도가 테스트셋 평균보다 높기 때문에 아직 forgotten 되지 않은 것으로 판단한다는 뜻
- Baselines
- GPT-NEO, OPT LMs
- Benchmarks
- 9 classification tasks & 4 dialogue tasks, perplexity
- 🧐
- 특정 패턴이 있는 이메일이나 코드와 같은 '구조화된' 데이터를 갖는 도메인에 대해서는 unlearning이 잘 수행되지 않았다고 함.
- 그 이유가 뭘까? 그리고 잊기 어렵다는 것은 그만큼 학습이 쉽다는 것을 의미하는 것 같기도 하다. 그렇다면 이런 도메인에 대해서는 학습 속도가 빠른 편일까?
- 또 이것은 학습이 잘 되어있다는 뜻인데, 이런 데이터셋에 대해서는 기존의 예측 정확도도 상대적으로 높아야 하는 것 아닐까?