recommender-systems

1 개의 포스트

REGEN: 자연어를 통한 개인화 (새 탭에서 열림)

Google Research는 추천 시스템이 단순히 다음 아이템을 예측하는 것을 넘어, 자연어로 사용자와 상호작용하고 추천 이유를 설명할 수 있도록 돕는 새로운 벤치마크 데이터셋 'REGEN(Reviews Enhanced with GEnerative Narratives)'을 공개했습니다. 이 데이터셋은 아마존 상품 리뷰 데이터를 기반으로 Gemini 1.5 Flash를 활용해 합성된 사용자 비평과 개인화된 내러티브를 추가하여 구축되었습니다. 연구 결과, LLM 기반의 모델은 자연어 피드백을 통해 추천의 정확도를 높이는 동시에 사용자 맞춤형 설명을 효과적으로 생성할 수 있음을 입증했습니다. ## REGEN 데이터셋의 구성과 특징 * **기존 데이터의 확장:** 널리 사용되는 아마존 상품 리뷰 데이터셋을 기반으로 하되, 대화형 추천 시스템에 필요한 요소들을 Gemini 1.5 Flash로 합성하여 보완했습니다. * **사용자 비평(Critiques):** "더 많은 저장 용량이 필요해"와 같이 사용자가 현재 추천된 아이템을 수정하거나 선호도를 구체화하는 자연어 피드백 데이터를 포함합니다. * **맥락적 내러티브(Narratives):** 단순한 아이템 노출이 아니라, 구매 이유(Purchase reasons), 제품 홍보(Product endorsements), 사용자 선호도 요약 등을 포함하여 추천의 근거를 풍부하게 제공합니다. ## 추천과 생성을 위한 모델 아키텍처 * **하이브리드 방식 (FLARE + Gemma):** 협업 필터링 기반의 순차적 추천 모델인 FLARE가 아이템을 예측하면, 경량 LLM인 Gemma 2B가 해당 아이템에 대한 설명을 생성하는 이원화된 구조를 테스트했습니다. * **통합 모델 (LUMEN):** 단일 LLM이 비평 이해, 아이템 추천, 내러티브 생성을 모두 수행하는 모델입니다. 어휘집과 임베딩 레이어를 수정하여 아이템 ID와 텍스트 토큰을 하나의 생성 과정에서 처리하도록 설계되었습니다. * **공동 작업 수행:** 모델은 사용자의 과거 이력과 자연어 비평을 동시에 입력받아 적절한 아이템을 추천함과 동시에 그에 걸맞은 자연어 설명을 출력하는 엔드 투 엔드(End-to-End) 학습을 진행합니다. ## 실험 결과 및 성능 향상 * **비평의 효과:** 입력 데이터에 사용자의 자연어 비평을 포함했을 때 추천 성능이 일관되게 향상되었습니다. Office 도메인 데이터 기준, 상위 10개 추천 결과 내에 정답이 포함될 확률(Recall@10)이 0.124에서 0.1402로 크게 개선되었습니다. * **LLM의 다재다능함:** REGEN으로 학습된 모델들은 기존의 전문화된 추천 알고리즘에 필적하는 성능을 보이면서도, 사용자의 요구사항을 반영한 고품질의 개인화된 설명을 생성할 수 있었습니다. 추천 시스템의 미래는 단순히 상품을 나열하는 것이 아니라 사용자와 소통하며 맥락을 이해하는 방향으로 나아가고 있습니다. REGEN 데이터셋은 LLM이 추천 엔진의 핵심 역할을 수행할 수 있음을 보여주며, 개발자들은 이를 활용해 더 설명 가능하고(explainable) 대화에 능숙한 차세대 커머스 AI를 구축할 수 있을 것입니다.