Evaluating Netflix Show Synopses with LLM-as-a-Judge (새 탭에서 열림)
넷플릭스는 방대한 콘텐츠 카탈로그에 맞춰 수십만 개의 시놉시스 품질을 효율적으로 관리하기 위해 'LLM-as-a-Judge' 시스템을 도입했습니다. 이 시스템은 창의적인 전문 작가들의 평가 기준을 학습하여 시놉시스의 품질을 85% 이상의 일치율로 평가하며, 실제 스트리밍 지표와도 높은 상관관계를 보입니다. 이를 통해 넷플릭스는 작품 공개 수주 전부터 부적절한 시놉시스를 선제적으로 식별하고 개선함으로써 사용자 경험을 최적화하고 있습니다. ### 시놉시스 품질의 두 가지 정의 * **창의적 품질(Creative Quality):** 전문 작가진이 정의한 내부 가이드라인과 루브릭에 따라 시놉시스의 톤, 명확성, 정밀도 등을 평가합니다. 초기에는 전문가 간 합의율이 낮았으나, 리커트 척도 대신 이진(Binary) 점수를 사용하고 일반적인 오류 체계를 구축하여 합의율을 80%까지 끌어올렸습니다. * **사용자 암묵적 피드백(Member Implicit Feedback):** 시놉시스를 본 사용자가 시청을 시작하는 비율인 '시청 전환율(Take Fraction)'과 시청 시작 후 곧 중단하는 '중도 이탈률(Abandonment Rate)'을 통해 품질을 측정합니다. 이 지표들은 장기적인 사용자 유지율을 예측하는 핵심 대리 지표로 활용됩니다. * **골든 데이터셋 구축:** 600개의 시놉시스에 대해 전문가 평가와 모델 기반 합의 프로세스를 거쳐 고품질의 기준 데이터를 마련했습니다. ### LLM 기반 평가 시스템 설계 * **기준별 전용 평가 모델:** 하나의 프롬프트로 모든 항목을 평가하면 성능이 저하되므로, 각 품질 기준(명확성, 톤 등)마다 독립적인 LLM 평가기를 할당했습니다. * **자동 프롬프트 최적화(APO):** LLM이 프롬프트 어구에 민감하게 반응하는 점을 고려하여, 약 300개의 샘플을 활용해 프롬프트를 자동으로 최적화하고 전문가가 이를 수동으로 미세 조정했습니다. * **추론 과정의 투명성:** 모든 평가기는 최종 점수를 내기 전에 반드시 근거(Explanation)를 먼저 출력하도록 설계하여 결과에 대한 신뢰도를 높였습니다. ### 추론 시간 최적화를 통한 성능 향상 * **계층적 추론(Tiered Rationales):** 추론 내용이 길어질수록 정확도는 높아지지만 인간의 가독성은 떨어지는 문제를 해결하기 위해 도입되었습니다. LLM이 자유롭게 길게 추론한 뒤, 최종 점수 출력 직전에 핵심 요약을 제공하도록 하여 정확도와 가독성을 동시에 잡았습니다. * **합의 점수 산출(Consensus Scoring):** 동일한 시놉시스에 대해 여러 번 결과값을 샘플링하고 이를 집계하여 최종 점수를 결정함으로써, 주관적인 평가 영역에서 발생할 수 있는 오류를 줄였습니다. * **성능 검증:** 톤(Tone) 평가 기준에서 계층적 추론 도입 시 정확도가 86.55%에서 87.85%로 향상되는 등 추론 시간(Inference-time) 확장이 유의미한 효과를 거두었습니다. 사용자의 선택을 돕는 텍스트 데이터의 품질 관리는 대규모 플랫폼의 필수 과제입니다. 넷플릭스의 사례처럼 단순한 결과 도출을 넘어 **'추론 과정의 확장'**과 **'전문가 데이터 기반의 정렬'**을 결합한다면, 창의적이고 주관적인 영역에서도 LLM을 강력한 품질 관리 도구로 활용할 수 있을 것입니다.