clip | Techlist.io

이미지 생성을 위한 협 (새 탭에서 열림)

PASTA(Preference Adaptive and Sequential Text-to-image Agent)는 사용자의 고유한 취향을 실시간으로 학습하여 여러 차례의 상호작용을 통해 이미지를 정교화하는 강화학습 기반 에이전트입니다. 사용자가 단일 프롬프트만으로 원하는 결과물을 얻기 어려운 기존 텍스트-이미지(T2I) 모델의 한계를 극복하기 위해, 에이전트와 사용자가 대화하듯 협업하는 방식을 채택했습니다. 구글 리서치는 실제 인간의 피드백과 대규모 사용자 시뮬레이션 데이터를 결합하여 학습함으로써 사용자 만족도를 획기적으로 높이는 데 성공했습니다. ### PASTA의 핵심 메커니즘과 협업 프로세스 - PASTA는 가치 기반 강화학습(Value-based RL) 모델을 사용하여 각 단계에서 사용자의 누적 만족도를 극대화할 수 있는 최적의 '프롬프트 확장(Prompt expansions)' 세트를 선택합니다. - 프로세스는 사용자가 초기 프롬프트를 입력하면 Gemini Flash 모델이 다양한 후보군을 생성하고, PASTA 에이전트가 이 중 최적의 이미지 4개를 선별하여 제안하는 방식으로 진행됩니다. - 사용자가 제안된 이미지 중 자신의 의도에 가장 가까운 것을 선택하면, 에이전트는 이를 실시간 피드백으로 삼아 다음 단계에서 더욱 정교한 후보를 제시하는 시각적 대화 루프를 형성합니다. ### 사용자 시뮬레이션을 통한 학습 데이터 확보 - 데이터 부족과 개인정보 보호 문제를 해결하기 위해 실제 사용자 데이터 7,000여 건을 바탕으로 '사용자 시뮬레이터'를 구축하여 3만 건 이상의 상호작용 데이터를 생성했습니다. - 사용자 모델은 특정 이미지 세트를 좋아할 확률을 예측하는 '유틸리티 모델'과 여러 선택지 중 하나를 고르는 '선택 모델'로 구성되며, 사전 학습된 CLIP 인코더를 활용합니다. - 기대값 최대화(EM) 알고리즘을 통해 사용자의 잠재적 유형(예: 동물, 음식, 추상화 선호 등)을 파악하고 학습에 반영함으로써 에이전트가 다양한 사용자 취향에 빠르게 적응할 수 있도록 했습니다. ### 성능 검증 및 실험 결과 - 연구팀은 암시적 Q-학습(Implicit Q-Learning, IQL)을 사용해 PASTA를 훈련시켰으며, 실제 데이터와 시뮬레이션 데이터를 결합한 모델이 가장 뛰어난 성능을 보였습니다. - Pick-a-Pic 데이터셋 accuracy와 스피어먼 순위 상관계수(Spearman’s rank correlation) 등 주요 지표에서 기존의 최신(SOTA) 모델(Gemini Flash 및 SDXL 기반)을 일관되게 상회했습니다. - 결과적으로 PASTA는 사용자가 반복적으로 프롬프트를 수정해야 하는 번거로움을 줄이면서도, 몇 번의 선택만으로 창의적 의도에 완벽히 부합하는 이미지를 생성하는 능력을 입증했습니다. PASTA는 이미지 생성 과정에 사용자의 피드백을 실시간으로 녹여내는 새로운 협업 패러다임을 제시합니다. 단순히 명령을 수행하는 도구를 넘어 사용자의 미적 취향을 이해하는 개인화된 AI 에이전트로의 발전을 보여주는 사례로, 향후 다양한 창작 지원 도구에 이 프레임워크를 적용할 수 있을 것으로 기대됩니다.

clip ai reinforcement-learning text-to-image+5