명확화 학습: Action-Based (새 탭에서 열림)

llm reinforcement-learning supervised-fine-tuning action-based-contrastive-self-training dialogue-policy-learning structured-query-language data-efficiency implicit-action-planning

구글 리서치와 딥마인드 연구진이 발표한 '행동 기반 대조적 자기 훈련(Action-Based Contrastive Self-Training, 이하 ACT)'은 LLM이 다회차 대화에서 모호함을 해소하는 능력을 획기적으로 개선하는 방법론입니다. 기존 모델들이 사용자의 의도를 성급하게 추측하거나 답변을 회피하는 경향이 있는 반면, ACT는 대화의 맥락에 따라 질문을 던져 의도를 명확히 할지 아니면 바로 답변할지를 스스로 판단하도록 훈련합니다. 이 알고리즘은 데이터 효율적인 방식으로 멀티턴 대화의 궤적(trajectory)을 최적화하여 복잡한 정보 탐색 작업에서 기존의 지도 학습 기반 미세 조정(SFT)이나 직접 선호도 최적화(DPO)보다 뛰어난 성능을 보였습니다.

대화형 추론을 위한 암시적 행동 계획

전통적인 대화형 에이전트는 대화 관리(질문할지 답변할지 결정)와 생성 모듈이 분리되어 있었으나, ACT는 이를 생성 과정의 일부인 '암시적 행동 계획'으로 통합했습니다.
LLM이 별도의 계획 단계 없이 응답 생성 과정 내에서 적절한 대화 행동(의도 확인 질문 vs 답변 시도)을 수행하도록 직접 최적화합니다.
이는 대화의 흐름에 따라 모델이 스스로 판단을 내리는 능력을 강화하여 더욱 자연스럽고 지능적인 상호작용을 가능하게 합니다.

1단계: 행동 기반 대조 데이터 생성

학습을 위해 먼저 각 대화 턴에서 '승리한 행동(예: 질문을 통한 확인)'과 '패배한 행동(예: 성급한 답변)'으로 구성된 선호도 데이터 쌍을 구축합니다.
기존 대화 데이터셋의 정답 턴을 승리 응답으로 삼고, 조건부 생성 모델을 활용해 이와 반대되는 성격의 부정적 응답(Rejected response)을 합성합니다.
이 과정을 통해 모델은 특정 상황에서 어떤 대화 행동이 더 적절한지에 대한 대조적인 시각을 학습하게 됩니다.

2단계: 온폴리시(On-policy) 대조적 자기 훈련

고정된 데이터셋으로 학습하는 오프라인 방식 대신, 학습 중인 모델이 직접 응답을 샘플링하는 온폴리시 방식을 채택했습니다.
모델이 생성한 응답이 올바른 대화 행동(예: 질문하기)을 수행했는지 확인한 뒤, 전체 대화 궤적을 시뮬레이션하여 최종 결과가 사용자의 의도와 부합하는지 평가합니다.
시뮬레이션 결과가 성공적일 경우 해당 궤적을 학습 데이터에 반영함으로써, 단일 턴의 응답 품질뿐만 아니라 멀티턴 대화 전체의 성공 확률을 높이도록 모델을 최적화합니다.

AmbigSQL 도입 및 성능 검증

연구진은 복잡한 SQL 코드 생성 시 발생하는 모호한 요청을 해소하기 위한 새로운 과제인 'AmbigSQL'을 도입하여 데이터 분석 에이전트의 능력을 시험했습니다.
표 기반 질의응답(Tabular-grounded QA) 및 기계 독해(MRC) 등 실제 환경과 유사한 다양한 과제에서 ACT의 효용성을 입증했습니다.
실험 결과, ACT는 대화 내의 모호성을 인지하고 추론하는 능력이 표준적인 튜닝 방식들보다 월등히 높음을 보여주었습니다.

사용자의 모호한 질문에 대해 단순히 답변을 생성하는 것에 그치지 않고, 적절한 시점에 확인 질문을 던지는 에이전트를 구축하고자 한다면 ACT와 같은 다회차 궤적 시뮬레이션 기반의 정렬(Alignment) 방식이 매우 효과적인 대안이 될 수 있습니다. 특히 데이터 분석이나 기술 지원처럼 정확한 의도 파악이 필수적인 도메인에서 모델의 신뢰도를 높이는 데 기여할 것으로 기대됩니다.