구글 연구진은 대규모 멀티모달 모델(LLM) 대신 소형 모델을 사용하여 사용자의 UI 상호작용 의도를 효과적으로 추출하는 '분해(Decomposition)' 접근 방식을 제안했습니다. 이 방법은 전체 과정을 각 화면별 요약과 최종 의도 추출이라는 두 단계로 나누어 처리함으로써, 개인정보 보호와 비용 효율성이 중요한 온디바이스(On-device) 환경에서도 대형 모델인 Gemini Pro에 비견되는 높은 성능을 기록했습니다. 결과적으로 복잡한 추론 과정을 세분화하는 것만으로도 소형 모델의 한계를 극복하고 정교한 사용자 의도 파악이 가능함을 증명했습니다.

단계별 분해를 통한 의도 추출 워크플로우

1단계: 개별 화면 요약: 사용자의 상호작용이 일어나는 각 화면을 소형 멀티모달 모델이 독립적으로 요약합니다. 이때 현재 화면을 중심으로 이전과 다음 화면을 포함한 3개의 화면(Sliding Window)을 참조합니다.
요약의 구성 요소: 모델은 "관련된 화면 컨텍스트는 무엇인가?", "사용자가 방금 수행한 작업은 무엇인가?", "이 상호작용을 통해 사용자가 달성하려는 목적은 무엇인가?(추측)"라는 세 가지 핵심 질문에 답하며 요약을 생성합니다.
2단계: 요약본 기반 의도 추출: 1단계에서 생성된 시계열 요약 데이터들을 입력값으로 하여, 파인튜닝된 소형 모델이 최종적으로 사용자의 전체 의도를 한 문장으로 추출합니다.

소형 모델의 성능 극대화 기술

레이블 정제(Label Preparation): 학습 데이터의 의도 문장에 요약본에 없는 세부 정보가 포함되어 있으면 모델이 환각(Hallucination)을 일으킬 수 있습니다. 이를 방지하기 위해 요약본에 포함되지 않은 정보는 학습용 레이블에서 미리 제거하는 과정을 거칩니다.
추측 데이터의 전략적 제거: 1단계에서 생성한 '사용자 목적에 대한 추측' 데이터는 1단계 요약의 품질은 높여주지만, 2단계 의도 추출 시에는 오히려 혼란을 줄 수 있습니다. 따라서 최종 의도 추출 단계에서는 이 추측 부분만 제외하고 실제 행동 요약만 활용하는 것이 성능 향상에 도움이 됨을 확인했습니다.
자동화 데이터셋 활용: 고품질의 의도 문장 예시를 학습시키기 위해, 의도와 행동 시퀀스가 잘 매칭된 공개 자동화 데이터셋을 활용하여 모델을 파인튜닝했습니다.

Bi-Fact 기반의 정밀한 성능 평가

원자적 사실(Atomic Facts) 분해: 모델이 예측한 의도와 실제 정답(Reference) 의도를 더 이상 쪼갤 수 없는 최소 단위인 '원자적 사실'들로 분해합니다. (예: "런던행 편도 항공권" -> "런던행 항공권", "편도 여정"으로 분해)
정밀도와 재현율 측정: 분해된 사실들을 바탕으로 모델이 예측한 사실 중 정답이 얼마나 있는지(Precision), 그리고 정답 중 모델이 얼마나 맞췄는지(Recall)를 계산하여 F1 점수를 산출합니다.
단계별 오류 추적: 이 평가 방식을 통해 요약 단계에서 정보가 누락되었는지, 아니면 추출 단계에서 환각이 발생했는지를 정교하게 추적하여 시스템을 개선했습니다.

실험 결과 및 성과

대형 모델 수준의 성능: 분해 전략을 적용한 Gemini 1.5 Flash 8B 모델은 훨씬 거대한 모델인 Gemini 1.5 Pro와 대등한 수준의 F1 점수를 기록했습니다.
기존 기법 대비 우위: 단순한 Chain-of-Thought(CoT) 프롬프팅이나 엔드투엔드(E2E) 파인튜닝 방식보다 모바일 및 웹 환경 모두에서 일관되게 뛰어난 성능을 보였습니다.
실용적 가치: 저비용·고속 처리가 가능한 소형 모델로도 복잡한 UI 궤적을 이해할 수 있게 됨에 따라, 향후 모바일 기기 내에서 개인정보 노출 없이 실시간으로 사용자를 돕는 지능형 비서 기능의 핵심 기술로 활용될 전망입니다.