Meta / machine-learning

5 개의 포스트

meta

Friend Bubbles: Enhancing Social Discovery on Facebook Reels (새 탭에서 열림)

페이스북 릴스(Reels)의 '친구 버블(Friend Bubbles)'은 친구가 좋아하거나 반응한 콘텐츠를 사용자에게 추천하여 새로운 발견과 사회적 연결을 돕는 기능입니다. 이 시스템은 머신러닝을 활용해 사용자 간의 친밀도를 측정하고 소셜 그래프 신호를 비디오 랭킹 로직에 결합함으로써, 단순한 콘텐츠 소비를 넘어 친구와의 대화로 이어지는 의미 있는 상호작용을 창출합니다. 결과적으로 친구 버블은 개인의 관심사와 소셜 신호를 동시에 충족시켜 플랫폼의 체류 시간과 사회적 가치를 모두 높이는 역할을 합니다. **사용자 간 친밀도 모델을 통한 핵심 관계 식별** 친구 버블 시스템은 사용자가 누구의 상호작용에 더 민감하게 반응할지 판단하기 위해 두 가지 상호 보완적인 머신러닝 모델을 사용합니다. * **설문 기반 친밀도 모델:** 실제 사용자들을 대상으로 한 설문 데이터와 소셜 그래프(함께 아는 친구, 위치 정보, 상호작용 패턴 등)를 결합하여 학습합니다. 매주 수조 개의 친구 관계를 대상으로 추론(Inference)을 실행하여 오프라인에서의 실제 친밀도를 예측합니다. * **플랫폼 내 활동 기반 모델:** 친구 버블이 표시되었을 때 발생하는 좋아요, 댓글, 공유 등의 실시간 반응을 학습합니다. 이를 통해 사용자가 특정 소셜 맥락에서 누구의 추천을 더 가치 있게 여기는지 동적으로 파악합니다. * **관계의 질 중심:** 단순히 친구가 많다고 해서 더 많은 버블을 보여주는 것이 아니라, 사용자가 진정으로 의미 있다고 느낄 만한 관계를 소수 정예로 선별하여 추천의 품질을 높입니다. **소셜 신호를 반영한 비디오 랭킹 최적화** 좋은 친구 콘텐츠가 일반적인 인기 콘텐츠에 밀려나지 않도록 랭킹 시스템 전반에 소셜 컨텍스트를 주입합니다. * **검색(Retrieval) 단계 확장:** 친밀도 모델이 식별한 가까운 친구들이 상호작용한 영상을 명시적으로 검색 결과에 포함시켜, 순위 모델(Ranking)에 충분한 후보군이 전달되도록 퍼널 상단을 확장합니다. * **MTML(Multi-Task Multi-Label) 모델 적용:** 기존 랭킹 모델에 '친구 친밀도'와 '버블 노출 시 참여도'를 새로운 특징(Feature)과 과업(Task)으로 추가합니다. 이를 통해 모델은 영상 자체의 품질뿐만 아니라 관계의 힘이 주는 고유한 가치를 학습합니다. * **연속적 피드백 루프:** `P(비디오 참여 | 버블 노출)`라는 조건부 확률을 활용해 사용자가 버블을 보고 실제로 반응할 가능성을 예측하며, 소셜 연결성과 콘텐츠 몰입도 사이의 균형을 맞추기 위해 가중치를 미세하게 조정합니다. **성능 저하 없는 실시간 인프라 구축** 릴스는 성능에 매우 민감한 서비스이므로, 추가적인 데이터 처리가 사용자 경험을 해치지 않도록 설계되었습니다. * **프리페치(Prefetch) 활용:** 비디오가 화면에 나타나기 전 메타데이터와 썸네일을 미리 불러오는 기존 윈도우에 친구 버블 데이터를 통합하여 로드 지연을 방지했습니다. * **최적화된 자원 관리:** 부드러운 스크롤을 유지하고 CPU 오버헤드를 최소화하기 위해 캐싱된 결과를 재사용하고 데이터 호출 구조를 단순화했습니다. 친구 버블의 성공 사례는 추천 시스템이 단순히 사용자의 과거 이력만을 쫓는 것이 아니라, 사용자 주변의 사회적 맥락을 깊이 있게 이해할 때 더 큰 가치를 만들 수 있음을 보여줍니다. 기술적으로는 모델에 관계 중심의 특징(Feature)을 직접 주입하고, 인프라 측면에서는 데이터 로딩의 우선순위를 정교하게 관리하는 것이 핵심입니다. 단순히 '인기 있는' 콘텐츠를 보여주는 것을 넘어 '내 지인에게 의미 있는' 콘텐츠를 상위에 노출하고 싶다면, 이와 같은 하이브리드 소셜 랭킹 접근법이 효과적인 전략이 될 것입니다.

meta

Ranking Engineer Agent (REA): The Autonomous AI Agent Accelerating Meta’s Ads Ranking Innovation (새 탭에서 열림)

Meta는 광고 랭킹 모델의 머신러닝(ML) 생태 주기를 자율적으로 수행하는 '랭킹 엔지니어 에이전트(REA)'를 개발하여 모델 최적화 과정을 혁신했습니다. REA는 가설 생성부터 학습 실행, 오류 디버깅, 결과 분석에 이르는 전 과정을 수동 개입 없이 관리하며, 기존 엔지니어링 방식 대비 모델 정확도를 2배 높이고 업무 효율을 5배 향상시키는 성과를 거두었습니다. 이는 단순 보조 도구를 넘어 복잡하고 긴 시간이 소요되는 ML 실험 과정을 독립적으로 주도할 수 있는 자율형 AI 에이전트의 가능성을 증명한 사례입니다. **장기 워크플로우를 위한 동면 및 깨우기(Hibernate-and-Wake) 메커니즘** * ML 모델 학습은 수 시간에서 수일이 소요되므로, 세션 기반의 일반 AI 비서로는 전체 과정을 관리하기 어렵습니다. * REA는 학습 작업을 실행한 후 대기 상태(동면)로 전환하여 자원을 보존하고, 작업이 완료되면 자동으로 복귀하여 다음 단계를 진행합니다. * 내부 AI 에이전트 프레임워크인 'Confucius'를 기반으로 구축되어 코드 생성, 내부 도구 통합, 실험 추적 인프라와의 유기적인 연결을 지원합니다. * 이를 통해 며칠에서 몇 주에 걸친 긴 실험 과정에서도 일관된 상태와 메모리를 유지하며 자율적으로 업무를 지속합니다. **데이터 기반의 하이브리드 가설 생성 엔진** * REA는 단순히 임의의 실험을 반복하는 것이 아니라, 두 가지 핵심 소스를 통해 고품질의 가설을 수립합니다. * **과거 통찰 데이터베이스:** 이전의 실험 성공 및 실패 패턴을 학습하여 맥락에 맞는 최적화 방향을 제시합니다. * **ML 리서치 에이전트:** 기준 모델의 설정을 조사하고 최신 ML 연구 트렌드를 반영하여 혁신적인 전략을 제안합니다. * 두 소스의 결합을 통해 모델 구조 최적화와 학습 효율성 개선이 결합된, 엔지니어가 단독으로 생각하기 어려운 독창적이고 효과적인 실험 구성을 도출합니다. **3단계 계획 프레임워크와 자율적 복원력** * REA는 엔지니어가 승인한 예산 범위 내에서 효율적으로 자원을 배분하기 위해 '검증(Validation) → 조합(Combination) → 활용(Exploitation)'의 3단계 전략을 사용합니다. * 먼저 개별 가설의 성능을 병렬로 검증한 뒤, 유망한 가설들을 조합하여 시너지 효과를 탐색하고, 최종적으로 가장 가능성 높은 후보에 자원을 집중 투입합니다. * 인프라 장애나 메모리 부족(OOM), 손실 발산(Loss Explosion) 같은 기술적 오류 발생 시, 미리 정의된 가이드라인과 원천 원리(First Principles)를 바탕으로 스스로 디버깅을 수행합니다. * 엔지니어는 매 순간을 감시하는 대신 전략적 결정 지점에서만 검토를 수행하므로, 적은 인원으로도 다수의 모델을 동시에 개선할 수 있습니다. REA의 사례는 AI 에이전트가 단순한 코딩 보조 도구를 넘어, 도메인 지식과 인프라 제어 능력을 갖춘 '자율적인 동료'로 진화하고 있음을 보여줍니다. 대규모 ML 시스템을 운영하는 조직이라면 REA와 같이 과거 데이터를 자산화하고 장기적인 실험 로드맵을 스스로 실행할 수 있는 에이전트 도입을 검토해야 합니다. 이는 반복적인 디버깅과 모니터링 작업에서 엔지니어를 해방시켜 더 고차원적인 전략 수립에 집중할 수 있는 환경을 제공할 것입니다.

meta

Adapting the Facebook Reels RecSys AI Model Based on User Feedback (새 탭에서 열림)

페이스북 릴스(Facebook Reels)는 단순한 '좋아요'나 시청 시간 같은 지표를 넘어, 사용자 피드백을 직접 활용하여 개인화된 추천 시스템의 성능을 대폭 개선했습니다. 새롭게 도입된 UTIS(User True Interest Survey) 모델은 사용자의 실제 관심사를 정밀하게 파악함으로써 니치(Niche)한 고품질 콘텐츠의 노출을 늘리고 사용자의 만족도와 유지율을 높이는 데 성공했습니다. 결과적으로 이번 연구는 암묵적인 행동 데이터와 명시적인 사용자 설문을 결합했을 때 추천 시스템의 장기적인 가치가 어떻게 극대화될 수 있는지를 보여줍니다. **기존 행동 지표의 한계와 진정한 관심사 측정** * 기존의 추천 시스템은 시청 시간이나 공유와 같은 행동 신호에 의존하지만, 이러한 데이터는 노이즈가 많고 사용자의 장기적인 만족도를 완전히 반영하지 못하는 한계가 있습니다. * 조사 결과, 기존의 휴리스틱 기반 관심사 파악 방식은 실제 사용자의 관심사를 식별하는 데 있어 정밀도가 48.3%에 불과한 것으로 나타났습니다. * 페이스북은 단순한 주제 정합성을 넘어 오디오, 제작 스타일, 분위기 등 사용자가 체감하는 다양한 차원을 측정하기 위해 대규모 실시간 설문을 피드 내에 도입했습니다. **UTIS(User True Interest Survey) 모델 프레임워크** * 매일 무작위로 선정된 사용자에게 "이 영상이 당신의 관심사와 얼마나 일치합니까?"라는 질문을 1~5점 척도로 제시하여 실시간 피드백을 수집합니다. * 수집된 설문 데이터는 노이즈를 줄이기 위해 이진화(Binarized) 처리를 거치며, 샘플링 편향을 보정하기 위해 가중치를 적용하여 학습 데이터셋으로 구축됩니다. * 메인 랭킹 모델의 예측값을 입력 피처로 사용하는 경량화된 '인지 레이어(Perception Layer)'를 설계하여, 희소한 설문 데이터를 전체 추천 시스템에 일반화할 수 있도록 구현했습니다. **추천 시스템 파이프라인으로의 통합** * **지연 단계 랭킹(Late Stage Ranking, LSR):** UTIS 모델의 점수를 최종 랭킹 공식의 추가 피처로 투입하여, 관심사 일치도가 높은 영상에는 가산점을 주고 낮은 영상은 순위를 낮추는 정밀 조정을 수행합니다. * **초기 단계 랭킹(Retrieval):** 설문 데이터를 집계하여 사용자의 진정한 관심사 프로필을 재구축하고, 이를 기반으로 후보군을 추출합니다. 또한 지식 증류(Knowledge Distillation) 기법을 활용해 LSR의 UTIS 예측값을 검색 모델 학습에 반영합니다. * 이러한 다단계 통합을 통해 단순 인기 기반의 저품질 콘텐츠 추천은 줄이고, 사용자 개인에게 최적화된 고품질 니치 콘텐츠의 비중을 높였습니다. **성과 및 실용적 함의** * UTIS 모델 도입 이후 리텐션(재방문율) 지표가 유의미하게 개선되었으며 좋아요, 공유, 팔로우와 같은 능동적 참여율도 상승했습니다. * 시청 시간만을 최적화할 때 발생할 수 있는 '저품질 대중 콘텐츠 도배' 문제를 해결하고, 장기적인 플랫폼 건강도를 높이는 결과를 얻었습니다. * 이번 사례는 대규모 추천 시스템을 운영할 때 사용자 행동 데이터(Implicit)와 직접적인 피드백(Explicit)을 결합한 '인지 모델'을 구축하는 것이 정교한 개인화를 위해 필수적임을 시사합니다.

meta

DrP: Meta's Root Cause Analysis Platform at Scale (새 탭에서 열림)

Meta가 개발한 **DrP(Root Cause Analysis platform)**는 대규모 시스템에서 발생하는 장애 조사 과정을 프로그래밍 방식으로 자동화하여 평균 복구 시간(MTTR)을 혁신적으로 단축하는 플랫폼입니다. 기존의 수동 조사와 노후화된 플레이북이 유발하는 온콜(On-call) 엔지니어의 피로도 문제를 해결하기 위해, 분석 로직을 코드로 작성하고 실행할 수 있는 통합 환경을 제공합니다. 현재 Meta 내 300개 이상의 팀에서 매일 5만 건 이상의 분석을 수행하며, 장애 복구 시간을 20%에서 최대 80%까지 줄이는 성과를 내고 있습니다. ### DrP의 핵심 구성 요소 * **표현력이 풍부한 SDK**: 엔지니어가 조사 워크플로우를 '분석기(Analyzer)'라는 코드로 구현할 수 있게 돕습니다. 이상 탐지, 시계열 상관관계 분석, 차원 분석 등 복잡한 데이터 분석을 위한 머신러닝 알고리즘과 헬퍼 라이브러리를 포함합니다. * **확장 가능한 백엔드**: 수만 건의 분석을 동시에 처리할 수 있는 멀티 테넌트 실행 환경을 제공하며, 각 분석 작업이 안전하게 격리되어 실행되도록 보장합니다. * **워크플로우 통합 및 후처리**: 알림(Alert) 시스템 및 장애 관리 도구와 긴밀하게 통합되어 장애 발생 시 자동으로 분석을 시작합니다. 분석 후에는 티켓 생성이나 코드 수정 요청(PR)과 같은 후속 조치를 자동으로 수행하는 기능도 갖추고 있습니다. ### 분석기(Analyzer)의 작성 및 실행 흐름 * **코드 기반 플레이북 작성**: 엔지니어는 SDK를 사용하여 장애 조사의 의사결정 트리를 코드로 작성합니다. 이 과정에서 종속된 서비스들의 분석기를 서로 연결(Chaining)하여 복합적인 장애 원인을 추적할 수 있습니다. * **자동화된 검증**: 작성된 분석기는 배포 전 코드 리뷰 도구와 통합된 백테스트(Backtesting) 과정을 거쳐 품질과 신뢰성을 검증받습니다. * **즉각적인 통찰력 제공**: 장애가 감지되면 DrP 백엔드가 즉시 분석기를 가동합니다. 온콜 엔지니어는 장애 알림을 받는 동시에 시스템이 이미 분석해 놓은 근본 원인과 권장 조치 사항을 확인할 수 있습니다. ### 도입 효과 및 운영 가치 * **MTTR의 획기적 단축**: 수동으로 몇 시간씩 걸리던 데이터 수집과 분류 작업을 자동화함으로써 장애 복구 속도를 가속화하고 시스템 가용성을 높입니다. * **온콜 생산성 향상**: 반복적이고 소모적인 디버깅 작업을 기계가 대신 처리하게 함으로써 엔지니어가 더 복잡하고 가치 있는 문제 해결에 집중할 수 있게 합니다. * **조사의 일관성 확보**: 개인의 숙련도에 의존하던 조사 방식을 코드화된 워크플로우로 표준화하여, 어떤 엔지니어가 대응하더라도 동일한 수준의 고품질 분석 결과를 얻을 수 있습니다. **결론적으로**, DrP는 대규모 마이크로서비스 환경에서 발생하는 복잡한 장애를 해결하기 위해 '운영의 코드화'를 실현한 사례입니다. 시스템 규모가 커짐에 따라 수동 대응의 한계를 느끼는 조직이라면, DrP와 같은 자동화된 RCA 플랫폼을 도입하여 인프라의 안정성과 엔지니어의 생산성을 동시에 확보하는 전략이 권장됩니다.

meta

Efficient Optimization With Ax, an Open Platform for Adaptive Experimentation (새 탭에서 열림)

메타(Meta)에서 공개한 Ax 1.0은 기계 학습을 활용해 복잡하고 자원 소모가 큰 실험 과정을 자동화하고 최적화하는 오픈소스 적응형 실험 플랫폼입니다. 베이지안 최적화를 기반으로 시스템의 다양한 설정을 효율적으로 탐색하며, AI 모델 튜닝부터 인프라 최적화까지 폭넓은 분야에서 실질적인 성능 향상을 이끌어내고 있습니다. 연구자와 개발자는 Ax를 통해 최소한의 실험 횟수로 최적의 설정을 찾는 동시에 시스템에 대한 심도 있는 통찰을 얻을 수 있습니다. **적응형 실험의 필요성과 Ax의 활용 사례** * 현대 AI 모델이나 복잡한 인프라 시스템은 설정 가능한 변수가 방대하며, 단 한 번의 설정을 테스트하는 데도 막대한 시간과 자원이 소모되는 문제가 있습니다. * Ax는 이전 실험 결과를 바탕으로 다음 실험 대상을 순차적으로 제안하는 '적응형 실험' 방식을 통해 실험 효율을 극대화합니다. * 메타 내부에서는 하이퍼파라미터 최적화(HPO)뿐만 아니라 생성형 AI의 데이터 혼합 비율 탐색, 컴파일러 플래그 튜닝, AR/VR 하드웨어 설계 등 하드웨어와 소프트웨어를 아우르는 다양한 영역에 적용되고 있습니다. **베이지안 최적화 기반의 핵심 작동 원리** * Ax는 내부적으로 BoTorch 라이브러리를 사용하여 탐색(새로운 영역 학습)과 활용(기존 우수 영역 정밀화)의 균형을 맞추는 베이지안 최적화를 수행합니다. * 가우시안 프로세스(Gaussian Process)를 대리 모델(Surrogate Model)로 활용하여, 데이터가 적은 상태에서도 예측값과 불확실성을 동시에 정량화합니다. * 기대 개선량(Expected Improvement, EI) 획득 함수를 통해 현재까지 발견된 최적값보다 더 나은 결과를 낼 가능성이 가장 높은 다음 후보 지점을 식별합니다. * 이러한 반복적인 루프를 통해 수백 개의 파라미터가 얽힌 고차원 공간에서도 실험 예산을 낭비하지 않고 최적의 해에 도달합니다. **다중 목적 최적화와 시스템 분석 기능** * 실제 운영 환경에서의 실험은 단일 지표 개선뿐 아니라 여러 제약 조건과 가드레일 사이의 균형을 맞춰야 하며, Ax는 이러한 다중 목적 최적화를 지원합니다. * 단순히 최적값을 찾는 것을 넘어, 파레토 프런티어(Pareto frontier) 분석을 통해 서로 충돌하는 지표 간의 트레이드오프를 시각적으로 보여줍니다. * 민감도 분석(Sensitivity Analysis) 도구를 제공하여 각 입력 변수가 최종 결과에 얼마나 기여하는지 설명하고, 시스템의 작동 원리에 대한 깊은 이해를 돕습니다. * 실험 상태 관리 및 오케스트레이션 자동화 기능을 갖추고 있어 연구용 프로토타입부터 실제 프로덕션 시스템까지 유연하게 통합 가능합니다. 복잡한 시스템의 성능 최적화가 필요하거나 실험 비용을 절감하고자 하는 조직이라면 `pip install ax-platform`을 통해 Ax를 도입해 볼 것을 추천합니다. 특히 블랙박스 형태의 최적화에 그치지 않고 시각화 및 진단 도구를 통해 시스템 내부의 변수 간 상호작용을 파악할 수 있다는 점이 큰 강점입니다.