adaptive-ranking-model

1 개의 포스트

Meta Adaptive Ranking Model: Bending the Inference Scaling Curve to Serve LLM-Scale Models for Ads (새 탭에서 열림)

메타는 광고 추천 시스템의 성능을 비약적으로 높이기 위해 LLM 수준의 복잡도를 갖춘 '적응형 랭킹 모델(Adaptive Ranking Model)'을 도입하여 추론의 복잡성, 지연 시간, 비용 효율성 사이의 상충 관계를 해결했습니다. 이 모델은 모든 요청에 동일한 연산을 적용하는 대신 지능형 요청 라우팅과 하드웨어 인지형 설계를 통해 1초 미만의 응답 시간을 유지하면서도 광고 전환율을 3% 이상 향상시키는 성과를 거두었습니다. 결과적으로 메타는 인프라 비용의 급증 없이도 수십억 명의 사용자에게 고도로 개인화된 광고 경험을 제공할 수 있는 기술적 토대를 마련했습니다. ### 추론 효율성을 극대화하는 모델 확장 기술 * **요청 중심의 계산 공유:** 기존의 개별 광고 단위 처리 방식에서 벗어나, 한 번의 요청 내에서 공통된 사용자 신호를 한 번만 계산하고 이를 여러 광고 후보군이 공유하는 '요청 지향 최적화(Request-Oriented Optimization)'를 도입했습니다. * **서브 리니어(Sub-linear) 비용 구조:** GPU 커널 내에서 요청 수준의 임베딩을 직접 브로드캐스트함으로써 연산량 증가에 따른 비용 상승 곡선을 완만하게 만들고 메모리 대역폭 압박을 줄였습니다. * **장기 사용자 시퀀스 활용:** 연산 오버헤드 때문에 제한적이었던 긴 사용자 행동 데이터를 중앙 집중식 키-값(KV) 저장소와 실시간 결합 방식을 통해 효율적으로 처리하여 사용자 의도 파악의 깊이를 더했습니다. ### 모델과 시스템의 통합 설계: Wukong Turbo * **구조적 처리량 최적화:** 메타의 내부 아키텍처인 Wukong을 발전시킨 'Wukong Turbo'는 수치적 불안정성을 제거하는 'No-Bias' 접근법을 통해 파라미터 수 증가 없이도 처리량을 극대화했습니다. * **하드웨어 친화적 파라미터 배치:** 전체 샤딩 데이터 병렬 처리(FSDP)와 분산 데이터 병렬 처리(DDP) 사이에서 파라미터 역할을 적절히 분배하여 네트워크 오버헤드를 줄이고, 모델 플롭스 이용률(MFU)을 다양한 하드웨어 환경에서 35%까지 끌어올렸습니다. * **지연 시간 중립화:** GPU가 데이터를 기다리며 공회전하는 '데이터 기아' 현상을 방지하기 위해, 기존 CPU 중심이었던 피처 전처리를 GPU로 이관하여 엔드투엔드 실행 경로를 단순화했습니다. ### 1조 파라미터 시대를 여는 서빙 인프라 * **멀티 카드 GPU 아키텍처:** 단일 장치의 메모리 한계를 극복하기 위해 다중 GPU 카드 구성을 활용하여, 추천 시스템에서도 1조(1T) 단위의 파라미터 확장이 가능하도록 인프라를 재설계했습니다. * **지능형 요청 라우팅:** 사용자의 문맥과 의도에 따라 모델의 복잡도를 동적으로 조절함으로써, 시스템 자원을 가장 효과적인 요청에 우선적으로 배정하여 전체적인 ROI를 높였습니다. 이번 적응형 랭킹 모델의 성공은 대규모 언어 모델(LLM) 수준의 복잡도를 실시간 서비스에 적용하기 위해서는 단순한 하드웨어 확장이 아닌, 모델 아키텍처와 서빙 인프라의 심층적인 협업 설계가 필수적임을 보여줍니다. 실시간 추천 성능을 개선하고자 하는 기업들은 연산 단위를 개별 아이템에서 요청 단위로 전환하고, GPU 활용도를 극대화할 수 있는 하드웨어 인지형 소프트웨어 스택 구축에 집중할 필요가 있습니다.