multimodal-ai - Pinterest

pinterest 2026년 1월 13일

PinLanding: Turn Billions of Products into Instant Shopping Collections with Multimodal AI (새 탭에서 열림)

Pinterest의 'PinLanding'은 수십억 개의 제품 데이터를 멀티모달 AI를 통해 정교한 쇼핑 컬렉션으로 자동 변환하는 프로덕션 파이프라인입니다. 기존의 수동 큐레이션이나 단순 검색 기록 기반 방식에서 벗어나, 제품의 이미지와 텍스트를 직접 분석하여 사용자의 복잡하고 긴 꼬리형(Long-tail) 검색 의도에 맞는 컬렉션을 생성합니다. 이 시스템은 비전-언어 모델(VLM)을 통한 속성 추출과 CLIP 스타일의 효율적인 임베딩 모델을 결합하여 대규모 데이터셋에서도 정밀도와 확장성을 동시에 확보했습니다. **사용자 쇼핑 의도와 데이터 신호의 특성화** * 사용자의 검색 기록, 자동 완성 상호작용, 필터 사용 패턴을 분석하여 쇼핑 의도의 분포를 파악합니다. * '검은색 칵테일 드레스'와 같은 정형화된 주요 쿼리(Head)뿐만 아니라, '이탈리아 여름 휴가 때 입을 옷'과 같은 서술형 및 대화형 쿼리에 대응하는 것을 목표로 합니다. * 색상, 상황, 스타일, 핏 등 20개 카테고리에 걸친 속성 차원을 정의하여, 수요는 높지만 기존 검색 결과가 부족한 영역을 식별합니다. **VLM과 LLM-as-Judge를 활용한 쇼핑 토픽 정제** * 제품의 이미지와 메타데이터를 비전-언어 모델(VLM)에 입력하여 정규화된 키-값 쌍 형태의 속성을 생성합니다. * 초기 VLM 출력의 너무 구체적이거나 중복된 속성(예: 'boho'와 'bohemian')을 해결하기 위해 빈도 기반 필터링과 임베딩 기반 클러스터링을 수행합니다. * 최종적으로 'LLM-as-judge' 단계를 거쳐 추출된 속성들이 실제 쇼핑 의도와 일치하는지, 의미적으로 일관성이 있는지 평가하여 고품질의 쇼핑 토픽 사전을 구축합니다. **CLIP 스타일 모델을 통한 대규모 속성 할당** * 모든 제품에 VLM을 직접 적용하는 것은 비용이 과다하므로, 이미지-텍스트를 정렬하는 CLIP 스타일의 듀얼 인코더 모델을 별도로 학습시킵니다. * 제품 인코더와 속성 구절 인코더를 통해 각각의 임베딩을 생성하고, 두 벡터 간의 유사도가 임계치를 넘을 때 속성을 할당합니다. * 이 방식은 VLM 대비 연산 비용을 획기적으로 낮추면서도, 제품별 속성 밀도를 높여 더욱 일관된 제품-속성 그래프를 형성합니다. **Ray 및 Spark 기반의 효율적인 배치 추론 및 피드 구축** * 수백만 개의 핀(Pin)과 토픽을 처리하기 위해 Ray 프레임워크를 사용하여 GPU와 CPU 리소스를 독립적으로 확장하며 스트리밍 방식으로 추론을 수행합니다. * CLIP 기반 분류기는 8개의 NVIDIA A100 GPU에서 약 12시간 만에 학습 및 추론을 완료하며, 회당 비용을 약 500달러 수준으로 절감했습니다. * 최종 피드 구성은 Apache Spark를 활용하여 제품과 쇼핑 토픽 간의 속성 유사도를 계산하고, 가중치 기반 스코어링을 통해 관련성 높은 제품들을 컬렉션으로 묶어냅니다. PinLanding 시스템은 AI가 단순한 키워드 매칭을 넘어 제품의 시각적, 맥락적 의미를 깊이 있게 이해할 수 있음을 보여줍니다. 대규모 이커머스 환경에서 사용자에게 개인화되고 탐색 가능한 쇼핑 경험을 제공하려는 기업은 VLM을 통한 '지식 추출'과 CLIP 스타일 모델을 통한 '효율적 확산' 전략을 참고할 가치가 있습니다.

multimodal-ai apache-spark contrastive-learning ray+4

pinterest 2025년 12월 8일

How Pinterest Built a Real‑Time Radar for Violative Content using AI (새 탭에서 열림)

핀터레스트는 플랫폼 내 유해 콘텐츠 노출 정도를 실시간으로 파악하기 위해 사용자 신고 중심의 지표를 넘어선 '유포율(Prevalence)' 측정 시스템을 구축했습니다. 머신러닝 기반의 가중치 샘플링과 멀티모달 LLM을 결합한 이 시스템은 기존 인적 검토 방식보다 15배 빠른 속도와 낮은 비용으로 매일 노출 위반 사례를 통계적으로 산출합니다. 이를 통해 핀터레스트는 정책 위반 콘텐츠가 사용자에게 미치는 실제 영향력을 정밀하게 모니터링하고 즉각적인 개선 조치를 취할 수 있는 기술적 토대를 마련했습니다. ## 유해 콘텐츠 유포율(Prevalence) 측정의 필요성 * **신고 데이터의 한계 극복:** 자해 콘텐츠와 같이 낙인이 찍힌 분야는 사용자가 신고를 꺼리는 경향이 있으며, 유해 콘텐츠를 직접 찾아보는 사용자는 신고를 하지 않으므로 신고 데이터만으로는 플랫폼의 안전성을 정확히 측정할 수 없습니다. * **노출 중심의 지표 수립:** 콘텐츠의 절대적인 개수보다 해당 콘텐츠가 사용자에게 몇 번 노출되었는지가 중요하므로, '전체 조회수 대비 정책 위반 콘텐츠의 조회수'를 핵심 지표로 정의했습니다. * **기존 인적 검토의 제약 해결:** 과거에는 수동 검토 비용 문제로 6개월마다 간헐적인 조사를 수행했으나, 이는 대응 속도가 느리고 통계적 일관성을 유지하기 어려웠습니다. ## 효율적이고 정교한 ML 기반 샘플링 기법 * **가중치 부여 저수조 샘플링(Weighted Reservoir Sampling):** 일일 노출 스트림에서 위험 점수(Risk Score)와 노출 수가 높은 콘텐츠를 우선적으로 샘플링하여 효율성을 높였습니다. * **편향 없는 통계 추정:** 샘플링 과정에서 발생하는 편향을 제거하기 위해 역확률 가중치(Inverse-probability weighting)를 적용했으며, Hansen–Hurwitz 및 Horvitz–Thompson 비율을 활용해 통계적 일관성을 확보했습니다. * **결측치 처리:** 위험 점수가 없는 신규 콘텐츠의 경우 당일의 중앙값을 할당하여 측정 범위에서 누락되지 않도록 방지하는 안전장치를 마련했습니다. ## 멀티모달 LLM을 통한 대규모 레이블링 자동화 * **속도와 비용의 획기적 개선:** 이미지와 텍스트를 동시에 이해하는 멀티모달 LLM을 활용해 판독 프로세스를 자동화함으로써 인적 검토 대비 15배 빠른 처리 속도와 수십 배 낮은 운영 비용을 달성했습니다. * **전문가 가이드라인 반영:** 정책 전문가(SME)가 검토한 프롬프트를 사용하며, 모델이 내린 결정의 근거와 정책 버전, 모델 ID 등 전체 계보(Lineage)를 기록하여 감사 가능성을 높였습니다. * **지속적인 보정 및 검증:** LLM의 판독 결과가 전문가의 기준(Gold Sets)에서 벗어나지 않도록 주기적인 인간 검증을 수행하며, 모델 드리프트(Drift)를 감시하여 측정의 신뢰도를 유지합니다. ## 시스템 운영 및 가시화 * **대시보드와 알림:** 매일 산출되는 유포율을 95% 신뢰구간(CI)과 함께 시각화하며, 정책 영역별(성인물, 자해, 폭력 등), 서비스 영역별(홈피드, 검색 등)로 세분화하여 분석할 수 있는 기능을 제공합니다. * **확장성 있는 구조:** 특정 LLM에 종속되지 않는 모델 불가지론적(Model-agnostic) 구조를 채택하여 향후 더 성능이 좋은 AI 모델로 손쉽게 교체할 수 있도록 설계했습니다. 이 시스템은 대규모 플랫폼이 AI를 활용하여 정책 위반 콘텐츠를 단순히 차단하는 것을 넘어, 플랫폼 전체의 안전 수준을 어떻게 데이터화하고 관리할 수 있는지에 대한 실질적인 방법론을 제시합니다. 특히 통계적 샘플링과 최신 AI 모델을 결합하여 비용 효율성과 정확성을 동시에 잡은 점이 돋보입니다.

multimodal-ai llm machine-learning trust-and-safety+3

pinterest 2025년 12월 4일

On the (re)-prioritization of open-source AI (새 탭에서 열림)

현재 인공지능 기술의 경쟁 축은 거대 폐쇄형 모델에서 오픈소스 및 목적 특화형(Fit-for-purpose) 모델로 빠르게 이동하고 있습니다. 핀터레스트(Pinterest)는 오픈소스 모델을 자사 데이터로 미세 조정하여 상용 모델 대비 10% 미만의 비용으로 동등한 성능을 구현해냈으며, 특정 작업에서는 오히려 범용 모델을 능가하는 성과를 거두고 있습니다. 이는 AI 모델 아키텍처가 범용화됨에 따라 기업의 경쟁력이 독자적인 데이터와 제품 통합 능력에서 결정된다는 점을 시사합니다. ### 핀터레스트의 모달리티별 모델 구축 전략 핀터레스트는 서비스의 특성에 따라 '자체 구축(Build)', '구매(Buy)', '조정(Adapt)'의 전략을 차별화하여 적용합니다. * **사용자 추천 시스템(Users):** 수천억 개의 노드로 구성된 이미지-보드-사용자 그래프를 기반으로 PinFM, PinRec과 같은 모델을 자체 구축하여 사용자 행동 시퀀스를 정교하게 학습합니다. * **시각적 이해(Visual):** 시각적 검색 및 컬렉션 데이터를 활용한 대규모 약지도 학습(Weakly-supervised pretraining)을 위해 PinCLIP, Pinterest Canvas 등 독자적인 인코더와 확산 모델을 개발합니다. * **텍스트 및 추론(Text):** 과거에는 외부 상용 모델에 의존했으나, 최근에는 오픈소스 LLM을 핀터레스트의 고유 데이터로 미세 조정하여 사용하는 방식으로 전환하고 있습니다. ### 도메인 특화 데이터 기반의 성능 차별화 모델 아키텍처가 상향 평준화되면서, 특정 도메인에 최적화된 데이터가 모델의 성능을 결정짓는 핵심 요소로 부상했습니다. * 핀터레스트는 자체 시각 데이터를 학습시킨 임베딩 모델(UVE, PinCLIP)을 통해 기성 모델보다 우수한 검색 및 추천 성능을 확보했습니다. * 이미지 생성 모델인 'Pinterest Canvas' 역시 범용 모델보다 핀터레스트의 서비스 환경에 적합한 이미지 편집 및 향상 기능을 제공하도록 튜닝되었습니다. * 이러한 접근법은 과거 AlexNet 시절 아키텍처가 범용화되고 데이터 중심의 최적화가 중요해졌던 머신러닝의 역사적 흐름과 궤를 같이합니다. ### 핀터레스트 어시스턴트(Pinterest Assistant) 사례 최근 출시된 AI 에이전트 서비스는 오픈소스 모델의 효율성을 증명하는 대표적인 사례입니다. * **지능형 라우터 구조:** 에이전트 역할을 하는 LLM이 사용자의 의도를 파악하고, 추천 서비스나 시각 검색 등 핀터레스트 고유의 도구(Tool)를 호출하는 구조를 채택했습니다. * **오픈소스 기반 최적화:** 초기에는 상용 LLM을 사용했으나, 도구 호출(Tool calling)과 쿼리 계획 수립에 특화된 미세 조정을 거친 오픈소스 모델로 교체하여 비용을 획기적으로 절감했습니다. * **성능 유지와 비용 절감:** 오픈소스 모델 도입을 통해 상용 모델 대비 10배 이상의 비용 효율성을 달성하면서도 서비스 품질은 유지하는 성과를 거두었습니다. ### 기술적 통찰과 제언 AI 기술 전략을 수립할 때 더 이상 모델의 크기나 범용적인 벤치마크 점수에만 매몰되어서는 안 됩니다. 기업은 자사가 보유한 고유의 데이터를 가장 효과적으로 학습시킬 수 있는 오픈소스 모델을 선택하고, 이를 자사 서비스 생태계에 깊숙이 통합하는 '목적 특화형' 접근법을 취해야 합니다. 모델 자체의 성능보다는 그 모델이 비즈니스 맥락 안에서 얼마나 정교하게 도구를 활용하고 사용자 경험을 개선하는지가 진정한 차별화 포인트가 될 것입니다.

multimodal-ai llm gen-ai fine-tuning+4