관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Meta Superintelligence Labs, Princeton University, Duke University]
- static data에 의존하지 않고 online interaction을 통해 continual personalization을 수행하는 PAHF 프레임워크 제안
- pre-action clarification과 post-action feedback이라는 dual feedback channel을 활용하여 explicit per-user memory를 업데이트
- embodied manipulation과 online shopping 두 도메인에서 four-phase evaluation protocol로 평가
- 이론적 분석을 통해 두 feedback channel의 complementarity를 증명하고, 실험적으로도 PAHF가 single-channel baseline 대비 일관되게 우수한 성능을 보여줌
출처 : https://arxiv.org/abs/2602.16173
Learning Personalized Agents from Human Feedback
Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user p
arxiv.org
1. Introduction
요즘 LLM 기반 AI agent가 디지털 어시스턴트부터 embodied robot까지 다양한 분야에서 활용되고 있는데요.
이런 agent들이 개별 사용자의 복잡하고 idiosyncratic한 선호도에 맞춰 행동하는 것은 여전히 어려운 문제입니다.
기존 personalized assistant 연구들은 대부분 static data에 의존해왔습니다. historical interaction log로부터 implicit preference를 학습하거나, 미리 정의된 user profile을 agent memory에 넣어두는 방식이었는데요.
이런 접근법은 세 가지 핵심 한계가 있습니다.
(1) 새로운 사용자에 대해 즉시 적응할 수 없고 (profile이나 interaction history가 없으니까요),
(2) real-time corrective feedback으로부터 학습할 수 없으며,
(3) 사용자의 선호도가 시간이 지나면서 변화하는 non-stationarity를 처리하지 못합니다.
이 논문에서는 이런 문제들을 해결하기 위해 Personalized Agents from Human Feedback (PAHF) 프레임워크를 제안합니다.
PAHF는 static data assumption에서 벗어나 interaction 자체를 primary learning signal로 활용하고, explicit per-user memory를 pre-action과 post-action feedback을 통해 지속적으로 업데이트하는 방식입니다.

Figure 1은 기존 static personalization과 이 논문에서 제안하는 continual personalization의 차이를 보여줍니다.
기존에는 offline으로 한 번 user profile을 만들어 놓고 deployment 때 읽기만 했다면, PAHF는 online interaction 과정에서 memory를 읽고 쓰는 것을 동시에 수행합니다.
2. Approach
2.1. Formalizing Continual Personalization
PAHF는 continual personalization을 online learning 문제로 formalization합니다.
매 interaction $t$에서 사용자는 latent preference state $M^*_t$를 가지고 있고, instruction $I_t$를 내립니다.
Agent는 explicit preference memory $\hat{M}_t$를 유지하면서 action $a_t$를 선택하는데요. 목표는 cumulative personalization error $\sum_{t=1}^{T} L_t$를 최소화하는 것입니다.
여기서 $L_t = \mathbf{1}[a_t \neq a^*_t]$는 0-1 loss입니다.
이 문제가 어려운 이유는 agent의 preference memory $\hat{M}_t$가 두 가지 유형의 error에 취약하기 때문입니다.
- Partial Observability: 사용자의 true state $M^*_t$가 hidden이라서 memory가 incomplete할 수 있습니다. 새로운 사용자의 경우 $\hat{M}_t = \emptyset$인 상황이죠.
- Non-Stationarity: 사용자의 preference가 시간에 따라 변할 수 있습니다. 이른바 "preference drift"인데, agent가 outdated된 belief를 자신있게 가지고 있는 miscalibration 상태가 됩니다.
2.2. PAHF Framework
PAHF는 이 online personalization 문제를 해결하기 위한 three-step interactive loop을 제안합니다.

첫 번째 단계는 Pre-Action Interaction입니다.
Agent가 instruction $I_t$를 받으면 먼저 memory $\hat{M}_t$에서 관련 preference를 검색합니다.
만약 관련 정보가 없으면 (예: 새로운 사용자) 사용자에게 proactively clarification question을 던집니다.
이 feedback은 action 전에 memory에 기록됩니다:
$$\hat{M}'_t = F^{pre}_{update}(\hat{M}_t, I_t, O_t, m_t, q_t, f^{pre}_t)$$
두 번째 단계는 Action Execution입니다. Agent의 action policy $\pi_{act}$가 모든 available information을 종합하여 최종 action을 결정합니다:
$$a_t = \pi_{act}(I_t, O_t, m_t, q_t, f^{pre}_t)$$
예를 들어 "Bring my favorite drink"이라는 task에서, memory에 "favorite drink is Coke"라는 정보가 있으면 바로 Coke를 집고, 없으면 pre-action interaction에서 얻은 답변을 활용합니다.
세 번째이자 가장 핵심적인 단계는 Post-Action Feedback Integration입니다.
Agent의 action이 틀렸을 때 사용자가 corrective feedback을 제공하면, 이를 memory에 반영합니다:
$$\hat{M}_{t+1} = F^{post}_{update}(\hat{M}'_t, I_t, m_t, q_t, f^{pre}_t, a_t, f^{post}_t)$$
개인적으로 이 세 단계의 설계가 꽤 직관적이라고 생각합니다. Pre-action은 "모르는 걸 물어보는 것"이고, post-action은 "틀린 걸 고치는 것"인데, 이 두 가지가 complementary하다는 점을 명확하게 짚어준 것이 이 논문의 좋은 점인 것 같습니다.
2.3. Theoretical Justification
논문에서는 두 feedback channel의 necessity를 이론적으로 증명합니다. 핵심적인 결과만 간단히 요약하자면:
Proposition 1은 post-action feedback의 필요성을 보여줍니다.
Preference drift가 있는 상황(최대 $K$번 switch)에서, post-action feedback을 사용하지 않는 어떤 policy든 $\Omega(T)$의 expected mistake를 냅니다.
반면 post-action update를 수행하면 $O(K)$로 줄일 수 있습니다.
직관적으로 생각해보면, drift를 감지할 방법이 없으니 stale preference를 계속 사용하게 되는 것이죠.
Proposition 2는 pre-action feedback의 필요성을 보여줍니다.
Ambiguous round의 비율이 $\gamma > 0$일 때, pre-action clarification 없이는 $\Omega(\gamma T)$의 error가 발생하지만, $k$개의 balanced $m$-ary question을 던지면 $O(\gamma T \cdot m^{-k})$로 줄일 수 있습니다.
최종적으로 Theorem 1에서 두 channel을 모두 사용하는 PAHF policy의 dynamic regret bound를 제시합니다:
$$E[R_T] = O(K + \gamma T m^{-k})$$
$k = \Theta(\log_m T)$로 설정하면 $E[R_T] = O(K + \gamma)$가 되어, preference switch 횟수와 ambiguity rate에만 의존하는 tight한 bound를 얻습니다.
2.4. Implementation
Agent는 ReAct framework 기반으로 GPT-4o를 사용합니다.
Memory backend로는 SQLite note store와 FAISS-based vector index 두 가지를 구현했는데, 둘 다 동일한 retrieval semantics를 제공합니다.
논문의 목적이 새로운 memory architecture를 제안하는 것이 아니라 feedback channel의 효과를 검증하는 것이기 때문에 의도적으로 simple한 design을 선택했다고 합니다.
Memory interaction은 reading(retrieval)과 writing(update) 두 축으로 구성됩니다.
Reading은 standard RAG pipeline을 따르고, writing은 salience detection → summarization → integration (update vs. add 판단)의 multi-step process입니다.
개인적으로 이 부분이 논문의 contribution을 명확하게 하는 좋은 선택이었다고 생각합니다.
Memory architecture에 신경 쓰기 시작하면 feedback channel의 효과를 isolate하기 어려워지니까요.
비교 대상으로는 네 가지 setting을 사용합니다:
(i) No Memory (persistent store 없음),
(ii) Pre-action Only (clarification만 허용, post-action update 없음),
(iii) Post-action Only (clarification 없이 corrective feedback으로만 학습),
(iv) PAHF (두 channel 모두 사용).
3. Experiments
3.1. Evaluation Domains
두 개의 도메인에서 평가를 수행합니다.
Embodied Manipulation Domain은 일상적인 indoor mobile-manipulation task를 모델링합니다.
40명의 user persona가 있고, 각 persona는 context-dependent한 preference를 가집니다.
예를 들어 "Alex"는 보통 black coffee를 좋아하지만, drowsy한 상태에서는 herbal tea를 선호하는 식입니다.
의도적으로 idiosyncratic하고 unconventional한 preference를 설계해서, generic commonsense로는 정답을 맞출 수 없게 했습니다.
Online Shopping Domain은 자연어 purchase request를 처리하는 task입니다.
Agent가 세 개의 product candidate 중 하나를 선택하거나 abstain해야 합니다.
특이한 점은 option들이 adversarially 구성된 "near-miss"라는 것인데, 대부분의 feature는 preferred하지만 하나의 "poison pill" feature가 있어서 fine-grained reasoning이 필요합니다.
이 도메인이 embodied보다 훨씬 challenging하다고 합니다.
3.2. Evaluation Protocol
Four-phase evaluation protocol을 설계했습니다:
- Phase 1 (Initial Learning): empty memory에서 시작하여 initial preference를 학습
- Phase 2 (Initial Personalization Test): Phase 1에서 학습한 memory로 새로운 scenario에서 평가 (feedback 없음)
- Phase 3 (Adaptation to Drift): persona를 바꿔서 preference drift 상황을 만들고 재학습
- Phase 4 (Adapted Personalization Test): Phase 3에서 업데이트된 memory로 평가
이 protocol이 initial learning과 adaptation to drift를 깔끔하게 분리해서 측정할 수 있게 해준다는 점에서 잘 설계되었다고 생각합니다.
3.3. Results


결과를 보면 몇 가지 핵심 패턴이 있습니다.
첫째, pre-action feedback은 initial personalization error를 방지합니다.
Phase 1에서 Pre-action Only와 PAHF가 첫 번째 interaction부터 훨씬 높은 success rate를 보여줍니다.
행동하기 전에 물어보는 것만으로도 초기 실수를 크게 줄일 수 있다는 것이죠.
둘째, pre-action feedback만으로는 preference drift에 취약합니다.
Phase 3에서 Pre-action Only agent는 이미 confident한 note가 memory에 있기 때문에 더 이상 ambiguity를 느끼지 못하고 clarification question을 하지 않습니다.
즉, 자기가 틀렸다는 걸 모르는 상태가 되는 거죠.
이게 개인적으로 가장 인상적인 발견이었는데요, "자신있게 틀리는" agent의 문제를 pre-action만으로는 해결할 수 없다는 점이 명확하게 드러납니다.
셋째, post-action feedback은 빠른 adaptation을 가능하게 합니다.
Post-action Only와 PAHF 모두 Phase 3에서 iteration이 진행됨에 따라 success rate가 급격히 상승합니다.
하지만 post-action만 쓰면 처음에 틀려봐야 배울 수 있으니 initial error가 크다는 단점이 있습니다.

Table 1의 evaluation success rate를 보면, PAHF가 거의 모든 phase와 domain에서 가장 높은 성능을 달성합니다.
Embodied domain에서 Phase 2: 70.5%, Phase 4: 68.8%, Shopping domain에서 Phase 2: 41.3%, Phase 4: 70.3%를 기록했습니다.
Shopping domain의 Phase 2 성능이 상대적으로 낮은 것이 눈에 띄는데, adversarial near-miss 설계 때문에 fine-grained preference reasoning이 훨씬 어렵기 때문입니다.
4. Conclusion and Discussion
논문에서는 PAHF가 pre-action과 post-action feedback의 complementary한 장점을 결합하여, static personalization의 한계를 극복했다고 결론짓고 있습니다.
개인적인 감상을 말씀드리자면, 이 논문의 가장 큰 강점은 문제 설정의 명확함이라고 생각합니다. "새로운 사용자에게 어떻게 적응할 것인가"와 "선호도가 바뀌었을 때 어떻게 대응할 것인가"라는 두 가지 핵심 질문을 분리하고, 각각에 대응하는 feedback channel을 제안한 뒤, 이론과 실험 모두에서 그 complementarity를 보여주는 구조가 깔끔합니다.
한편으로 아쉬운 점도 있습니다. 먼저 human feedback이 LLM simulation으로 생성된다는 점이 실제 deployment와의 gap을 만들 수 있을 것 같습니다.
실제 사용자의 feedback은 noisy하고 inconsistent할 수 있는데, 이 부분은 limitation에서도 언급하고 있긴 합니다.
또한 memory design을 의도적으로 simple하게 가져간 것은 좋은 선택이지만, 실제 production 환경에서는 memory가 커지면서 retrieval quality나 scalability 문제가 생길 수 있을 것 같습니다.
그리고 online shopping domain에서 전반적으로 성능이 낮다는 점 (Phase 2에서 PAHF도 41.3%)도 눈여겨볼 부분입니다.
논문에서는 의도적으로 어렵게 설계했다고 하지만, 이 수준의 성능으로는 실용적 활용이 쉽지 않을 것 같고, 이 gap을 어떻게 줄여갈 수 있을지가 향후 연구의 중요한 방향이 될 것 같습니다.
전체적으로 personalization을 continual learning 관점에서 접근하고, 단순히 시스템을 제안하는 것에 그치지 않고 이론적 근거까지 제시한 점이 좋았습니다. Explicit memory + dual feedback channel이라는 조합이 앞으로 personalized agent 연구의 하나의 baseline이 될 수 있지 않을까 싶습니다.