Netflix / transformer

2 개의 포스트

netflix

MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix (새 탭에서 열림)

넷플릭스는 방대한 콘텐츠 카탈로그를 정밀하게 이해하기 위해 비디오, 오디오, 텍스트를 결합한 자체 멀티모달 파운데이션 모델인 MediaFM을 개발했습니다. 이 모델은 쇼트(Shot) 단위의 정보를 긴 문맥 속에서 학습하여 내러티브 구조와 감정적 흐름을 파악하며, 광고 타겟팅, 클립 인기 예측, 장르 분류 등 다양한 서비스의 기반 기술로 활용됩니다. 결과적으로 MediaFM은 단순한 프레임 분석을 넘어 영상의 전체적인 맥락을 기계가 읽을 수 있게 변환함으로써 넷플릭스의 콘텐츠 운영 효율과 사용자 경험을 크게 향상시키고 있습니다. **트리모달 데이터의 결합과 전처리** * 모델의 기본 분석 단위는 쇼트 경계 감지 알고리즘으로 분할된 '쇼트(Shot)'이며, 각 쇼트에서 비디오, 오디오, 텍스트 세 가지 핵심 모달리티를 추출합니다. * 비디오는 내부 모델인 SeqCLIP, 오디오는 Meta의 wav2vec2, 자막 및 오디오 설명은 OpenAI의 text-embedding-3-large를 사용하여 개별 임베딩을 생성합니다. * 추출된 세 임베딩을 하나로 결합하여 2304차원의 통합 벡터를 만들고, 이를 최대 512개의 시퀀스로 구성하여 트랜스포머 인코더에 입력합니다. * 작품의 시놉시스와 태그 같은 타이틀 수준의 메타데이터를 [GLOBAL] 토큰으로 변환하여 삽입함으로써, 개별 쇼트가 전체 작품의 맥락을 반영할 수 있도록 설계했습니다. **트랜스포머 기반 아키텍처와 학습 방식** * MediaFM은 BERT와 유사한 구조의 트랜스포머 인코더를 사용하여 쇼트 간의 시간적 관계와 문맥적 정보를 학습합니다. * '마스크 쇼트 모델링(Masked Shot Modeling, MSM)' 기법을 학습 목표로 사용하며, 입력 시퀀스의 20%를 마스킹하고 주변 정보를 통해 원래의 결합 임베딩을 코사인 유사도 기반으로 예측하도록 훈련합니다. * 최적화 과정에서 하이퍼파라미터 튜닝을 위해 Muon 옵티마이저를 도입하여 기존 AdamW 방식보다 성능을 유의미하게 개선했습니다. * 이 과정을 통해 생성된 임베딩은 단순한 정보를 넘어 영상의 전후 흐름이 반영된 '문맥화된 표현(Contextualized representation)'이 됩니다. **주요 활용 사례 및 성능 평가** * 광고 적합성(Ad Relevancy): 추출된 임베딩을 통해 특정 광고 배치에 적합한 클립을 분류하고 후보군을 식별하여 광고 서빙 시스템의 효율을 높입니다. * 클립 인기 및 톤 분석: 클립의 클릭률(CTR)을 바탕으로 상대적 인기를 예측하거나, 영상의 분위기(공포, 유머 등 100여 개 카테고리)를 정밀하게 분석합니다. * 장르 분류 및 리트리벌: 11개의 주요 장르 분류와 더불어, 특정 작품을 홍보하기에 적합한 '가치 있는 클립'인지 여부를 판별하는 이진 분류 작업에 활용됩니다. * 성능 평가 결과, 특정 클립을 단독으로 분석하는 것보다 전체 에피소드라는 더 큰 문맥 안에서 임베딩을 추출할 때 모든 작업에서 월등한 성능을 보였습니다. MediaFM은 넷플릭스가 보유한 대규모 엔터테인먼트 특화 데이터를 학습하여 콘텐츠의 깊은 의미를 파악하는 강력한 도구입니다. 특히 신작 출시 시 데이터가 부족한 '콜드 스타트' 문제를 해결하고, 예고편이나 아트워크 같은 홍보 자산을 최적화하는 데 기여함으로써 미디어 산업에서 멀티모달 AI가 나아가야 할 실질적인 방향을 제시하고 있습니다.

netflix

Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning | by Netflix Technology Blog | Netflix TechBlog (새 탭에서 열림)

넷플릭스는 사용자 행동을 순차적으로 예측하는 생성형 추천 시스템(Generative Recommenders)의 성능을 한 단계 높이기 위해 사후 학습(Post-training) 기술인 '가중치 적용 지도 미세 조정(Advantage-Weighted Supervised Finetuning, 이하 A-SFT)'을 도입했습니다. 기존의 생성형 추천 모델은 단순히 과거의 시퀀스를 모방하는 데 그쳐 실제 사용자 만족도를 충분히 반영하지 못했으나, A-SFT는 노이즈가 많은 추천 환경의 보상 신호를 효과적으로 학습에 활용합니다. 이 방법론은 반사실적 데이터(Counterfactual feedback) 확보가 어려운 추천 시스템의 한계를 극복하고, 보상 모델의 불확실성 속에서도 모델을 사용자 선호도에 더 정교하게 정렬시키는 결론을 도출했습니다. **생성형 추천 시스템의 한계와 사후 학습의 필요성** * 생성형 추천 모델(GR)은 트랜스포머 아키텍처를 활용해 사용자의 다음 활동을 예측하는 순차적 변환 태스크로 추천 문제를 정의합니다. * 단순히 관찰된 과거 행동을 모방하는 방식은 트렌드나 외부 요인에 의한 상호작용을 구분하지 못하며, 사용자가 실제로 만족하지 않은 콘텐츠를 반복 추천할 위험이 있습니다. * 따라서 시청 시간, 클릭률, 평점 등 명시적·암묵적 피드백을 활용해 모델을 사용자 선호에 맞게 조정하는 사후 학습 과정이 필수적입니다. **추천 시스템 사후 학습의 주요 난제** * **반사실적 피드백의 부재:** LLM과 달리 추천 시스템은 사용자가 실제로 경험한 온-폴리시(On-policy) 데이터만 존재하며, 수주에서 수년에 걸친 사용자 시퀀스에 대해 가상의 시나리오에 대한 피드백을 얻는 것은 불가능에 가깝습니다. * **보상 신호의 높은 노이즈:** 시청 시간이 길다고 해서 반드시 만족도가 높은 것은 아니며(시간 제약 등으로 중단 가능), 보상 모델 자체가 높은 불확실성과 분산을 가집니다. * **기존 기법의 적용 한계:** 반사실적 데이터를 요구하는 PPO(근사 정책 최적화)나 DPO(직접 선호도 최적화) 같은 최신 LLM 최적화 기법을 추천 도메인에 그대로 적용하기 어렵습니다. **A-SFT: 불확실한 보상을 활용하는 최적화 전략** * A-SFT는 지도 미세 조정(SFT)의 안정성과 강화 학습의 이점 함수(Advantage function)를 결합하여 보상 모델의 방향성 신호를 학습에 반영합니다. * 보상 모델이 높은 분산을 가질 때에도 보상 자체에 매몰되지 않고, 이점 함수를 통해 상대적으로 더 나은 행동에 가중치를 두어 학습함으로써 성능 저하를 방지합니다. * 이 방식은 보상 모델이 없을 때 사용하는 '행동 복제(Behavior Cloning)'와 완벽한 보상 모델을 전제로 하는 '온라인 강화 학습' 사이의 적정 지점을 찾아내어 모델 성능을 최적화합니다. **실무적 권장 사항** 추천 시스템의 사후 학습 전략을 선택할 때는 보상 모델의 품질과 일반화 능력을 먼저 고려해야 합니다. 보상 모델의 노이즈가 심할 경우 이를 과도하게 최적화하면 오히려 성능이 하락할 수 있으므로, A-SFT와 같이 보상의 방향성을 활용하면서도 학습의 안정성을 유지할 수 있는 가중치 기반의 접근법을 사용하는 것이 권장됩니다. 이는 특히 실제 서비스 데이터와 같이 피드백이 불완전한 환경에서 생성형 모델을 사용자 가치에 정렬시키는 데 매우 효과적인 도구가 될 수 있습니다.