multimodal

2 개의 포스트

MediaFM: 넷 (새 탭에서 열림)

넷플릭스는 방대한 콘텐츠 카탈로그를 정밀하게 이해하기 위해 비디오, 오디오, 텍스트를 결합한 자체 멀티모달 파운데이션 모델인 MediaFM을 개발했습니다. 이 모델은 쇼트(Shot) 단위의 정보를 긴 문맥 속에서 학습하여 내러티브 구조와 감정적 흐름을 파악하며, 광고 타겟팅, 클립 인기 예측, 장르 분류 등 다양한 서비스의 기반 기술로 활용됩니다. 결과적으로 MediaFM은 단순한 프레임 분석을 넘어 영상의 전체적인 맥락을 기계가 읽을 수 있게 변환함으로써 넷플릭스의 콘텐츠 운영 효율과 사용자 경험을 크게 향상시키고 있습니다. **트리모달 데이터의 결합과 전처리** * 모델의 기본 분석 단위는 쇼트 경계 감지 알고리즘으로 분할된 '쇼트(Shot)'이며, 각 쇼트에서 비디오, 오디오, 텍스트 세 가지 핵심 모달리티를 추출합니다. * 비디오는 내부 모델인 SeqCLIP, 오디오는 Meta의 wav2vec2, 자막 및 오디오 설명은 OpenAI의 text-embedding-3-large를 사용하여 개별 임베딩을 생성합니다. * 추출된 세 임베딩을 하나로 결합하여 2304차원의 통합 벡터를 만들고, 이를 최대 512개의 시퀀스로 구성하여 트랜스포머 인코더에 입력합니다. * 작품의 시놉시스와 태그 같은 타이틀 수준의 메타데이터를 [GLOBAL] 토큰으로 변환하여 삽입함으로써, 개별 쇼트가 전체 작품의 맥락을 반영할 수 있도록 설계했습니다. **트랜스포머 기반 아키텍처와 학습 방식** * MediaFM은 BERT와 유사한 구조의 트랜스포머 인코더를 사용하여 쇼트 간의 시간적 관계와 문맥적 정보를 학습합니다. * '마스크 쇼트 모델링(Masked Shot Modeling, MSM)' 기법을 학습 목표로 사용하며, 입력 시퀀스의 20%를 마스킹하고 주변 정보를 통해 원래의 결합 임베딩을 코사인 유사도 기반으로 예측하도록 훈련합니다. * 최적화 과정에서 하이퍼파라미터 튜닝을 위해 Muon 옵티마이저를 도입하여 기존 AdamW 방식보다 성능을 유의미하게 개선했습니다. * 이 과정을 통해 생성된 임베딩은 단순한 정보를 넘어 영상의 전후 흐름이 반영된 '문맥화된 표현(Contextualized representation)'이 됩니다. **주요 활용 사례 및 성능 평가** * 광고 적합성(Ad Relevancy): 추출된 임베딩을 통해 특정 광고 배치에 적합한 클립을 분류하고 후보군을 식별하여 광고 서빙 시스템의 효율을 높입니다. * 클립 인기 및 톤 분석: 클립의 클릭률(CTR)을 바탕으로 상대적 인기를 예측하거나, 영상의 분위기(공포, 유머 등 100여 개 카테고리)를 정밀하게 분석합니다. * 장르 분류 및 리트리벌: 11개의 주요 장르 분류와 더불어, 특정 작품을 홍보하기에 적합한 '가치 있는 클립'인지 여부를 판별하는 이진 분류 작업에 활용됩니다. * 성능 평가 결과, 특정 클립을 단독으로 분석하는 것보다 전체 에피소드라는 더 큰 문맥 안에서 임베딩을 추출할 때 모든 작업에서 월등한 성능을 보였습니다. MediaFM은 넷플릭스가 보유한 대규모 엔터테인먼트 특화 데이터를 학습하여 콘텐츠의 깊은 의미를 파악하는 강력한 도구입니다. 특히 신작 출시 시 데이터가 부족한 '콜드 스타트' 문제를 해결하고, 예고편이나 아트워크 같은 홍보 자산을 최적화하는 데 기여함으로써 미디어 산업에서 멀티모달 AI가 나아가야 할 실질적인 방향을 제시하고 있습니다.

더욱 똑똑하게 답하며, 더욱 풍부한 감정표현을 향한 Kanana-o의 진화 과정 (새 탭에서 열림)

카카오의 멀티모달 언어모델 Kanana-o는 텍스트, 이미지, 음성을 동시에 이해하고 처리하여 사람처럼 자연스러운 상호작용을 지향하는 통합 모델입니다. 연구팀은 모델이 입력 모달리티에 관계없이 일관된 지능을 발휘하도록 고품질의 복합 지시 이행 데이터를 구축하고, 음성 토큰화 기술을 통해 풍부한 감정 표현력을 확보했습니다. 그 결과 Kanana-o는 한국어 맥락을 깊이 있게 이해하며 복잡한 명령을 수행하는 동시에, 사람과 유사한 섬세한 음성 반응을 제공하는 독보적인 성능을 입증했습니다. **멀티모달 지시 이행 능력의 고도화** * 단순한 질의응답을 넘어 요약, 문체 변환, 형식 제한 등 복합적인 제약 조건이 포함된 오디오 기반 지시 이행 데이터셋을 직접 설계했습니다. * 텍스트 입력 시에는 뛰어난 성능을 보이지만 오디오 입력 시 성능이 저하되는 기존 모델들의 한계를 극복하기 위해, 모달리티에 무관하게 안정적인 지능을 유지하는 일반화(Domain-generalization) 작업에 집중했습니다. * 한국어 음성 지시 이행 벤치마크인 Speech-KoMT-Bench에서 글로벌 경쟁 모델 대비 압도적인 성능을 기록하며 한국어 환경에서의 우수성을 증명했습니다. **이미지-오디오-텍스트 통합 데이터 구축** * 이미지를 보면서 음성으로 질문하는 등 서로 다른 모달리티가 결합된 시나리오에서도 정교하게 동작하도록 이미지-오디오-텍스트 통합 데이터셋을 구축했습니다. * 시각 정보와 청각 정보를 동시에 정렬(Alignment)함으로써, 모델이 복합적인 입력 환경에서도 사용자의 의도와 맥락을 정확히 파악할 수 있도록 학습시켰습니다. **오디오 토큰화를 통한 자연스러운 감정 표현** * 기존의 단조로운 음성 합성 방식을 넘어, 음성 데이터를 이산적인 토큰(Discrete Audio Tokens)으로 변환하여 언어모델이 텍스트와 함께 예측하도록 설계했습니다. * 이를 통해 단순한 텍스트 전달이 아닌, 발화자의 감정선, 호흡, 웃음소리, 억양 등 미묘한 운율(Prosody) 정보를 풍부하게 담아낼 수 있게 되었습니다. * 사용자의 감정을 실시간으로 인식하고 이에 어울리는 목소리 톤으로 응답함으로써, 기계적인 비서가 아닌 실제 사람과 대화하는 듯한 정서적 유대감을 제공합니다. Kanana-o는 단순히 기술적 지표를 높이는 것에 그치지 않고, 실제 서비스 환경에서 사용자가 체감할 수 있는 '이해력'과 '표현력'의 조화를 이루어냈습니다. 한국어에 특화된 강력한 지능과 섬세한 감성 표현 기술의 결합은 향후 더욱 몰입감 있고 실질적인 도움을 주는 AI 경험을 제공할 것으로 기대됩니다.