ctr-prediction

2 개의 포스트

경량 광고 참여 예측을 위한 (새 탭에서 열림)

Pinterest는 광고 추천 시스템의 중간 단계인 경량 랭킹(Lightweight ranking)의 효율성을 극대화하기 위해, 기존 CPU 기반의 2-타워 모델을 GPU 기반의 MMOE-DCN 아키텍처로 전환했습니다. 이를 통해 모델의 복잡도를 높이면서도 지연 시간을 안정적으로 유지했으며, 오프라인 예측 오차 감소와 더불어 온라인 클릭률(CTR) 증가 및 클릭당 비용(CPC) 감소라는 실질적인 성과를 거두었습니다. **MMOE-DCN 아키텍처로의 전환** * 기존의 MTMD(Multi-Task Multi-Domain) 모델에서 MMOE(Multi-gate Mixture-of-Experts)와 DCN(Deep & Cross Networks)이 결합된 구조로 아키텍처를 변경했습니다. * MLP 게이팅 메커니즘을 적용한 MMOE 구조를 통해 별도의 도메인 전용 모듈 없이도 다중 도메인 및 다중 작업(Multi-task) 학습 문제를 효과적으로 해결했습니다. * 모델 내의 각 전문가(Expert) 유닛에 풀랭크(Full-rank) 및 로우랭크(Low-rank) DCN 레이어를 도입하여 특성 간의 교차 작용을 더 정교하게 학습하도록 설계했습니다. **GPU 학습 및 서빙 효율성 최적화** * 데이터 로더 최적화: GPU 프리패치(Prefetch) 기능을 활성화하여 GPU 연산과 데이터 준비를 병렬화하고, 대용량 CPU 메모리를 활용해 워커 스레드 수를 늘려 병목 현상을 제거했습니다. * 연산 효율성 증대: CPU에서의 메모리 할당을 최소화하고 GPU에서 직접 연산을 수행하며, 개별 커널들을 하나로 합친 퓨즈드 커널(Fused kernels)을 사용해 오버헤드를 줄였습니다. * 훈련 설정 개선: BF16(Brain Floating Point 16) 정밀도를 도입해 학습 속도를 높였으며, 배치 크기를 확대하여 GPU 메모리 활용도를 극대화했습니다. **데이터 분리 및 성과 분석** * 쇼핑 광고와 일반 광고 시나리오를 분리하고 각 데이터에 맞게 개별 학습을 진행함으로써 오프라인 손실(Loss)을 추가로 5~10% 더 절감했으며, 모델 반복 학습 속도를 2배 개선했습니다. * 오프라인 평가에서 이전 모델 대비 CTR 예측 손실이 총 10~20%가량 감소하는 결과를 확인했습니다. * 실제 온라인 서비스 적용 결과, 모든 광고 영역에서 사용자 클릭률(CTR)은 상승하고 광고주가 부담하는 클릭당 비용(CPC)은 낮아지는 지표 개선을 달성했습니다. GPU 인프라를 활용한 모델 복잡도 최적화는 대규모 추천 시스템에서 성능과 비용 효율성을 동시에 잡을 수 있는 핵심 전략입니다. 특히 단순한 하드웨어 교체를 넘어 하드웨어 가속에 최적화된 커널 사용과 데이터 파이프라인 튜닝을 병행할 때 복잡한 딥러닝 모델의 실무 적용 효과가 극대화됩니다.

토스 Next ML Challenge - 광고 클릭 예측(PCTR) ML 경진대회 출제 후기 (새 탭에서 열림)

토스는 실제 서비스 데이터를 기반으로 한 광고 클릭 예측(CTR) 모델 개발 대회인 'Toss Next ML Challenge'를 통해 우수 ML 인재를 발굴하고 현업의 기술적 난제를 공유했습니다. 약 2,600명의 참가자가 1,070만 건의 익명화된 데이터를 바탕으로 실시간 서빙이 가능한 고성능 모델을 설계했으며, 출제진의 의도를 뛰어넘는 창의적인 피처 엔지니어링과 모델링 기법들이 제시되었습니다. 이번 대회는 데이터 보안과 실무적 난이도 사이의 균형을 맞춘 문제 설계를 통해 참가자들에게 실질적인 ML 시스템 설계 경험을 제공하고 토스 ML 챕터의 비전을 알리는 계기가 되었습니다. **실무 기반의 문제 설계와 CTR 예측** - 토스 앱 내 디스플레이 광고의 노출 및 클릭 로그를 활용해 특정 조건에서의 클릭 확률을 예측하는 모델 설계를 과제로 제시했습니다. - 약 1,070만 건의 대규모 트레이닝 샘플과 성별, 연령, 광고 지면 ID 등 다양한 피처를 제공하여 데이터 규모 측면의 실무 환경을 재현했습니다. - 단순히 예측 정확도뿐만 아니라 실제 서비스 적용을 고려하여 '실시간 서빙 가능성(Inference 속도)'을 가점 사항으로 포함해 효율적인 모델 구조 설계를 유도했습니다. **데이터 익명화의 한계와 시퀀스 피처의 도입** - 외부 반출을 위한 데이터 익명화 과정에서 다수 테이블의 조인이 어려워짐에 따라, 여러 데이터를 직접 가공하여 하나의 정형 테이블 형태로 제공했습니다. - 문제 난이도가 지나치게 낮아지는 것을 방지하기 위해 가공되지 않은 '시퀀스(Sequence) 피처'를 의도적으로 포함하여 참가자들의 분석 역량을 시험했습니다. - 참가자들은 익명화된 피처의 의미를 알 수 없는 제약 속에서도 시계열 특성을 파악하고 이를 수십 개의 파생 변수로 변환하는 집요함을 보여주었습니다. **참가자들의 모델링 전략과 기술적 통계** - 본선 진출 30팀 모두가 LightGBM, XGBoost 등 Boosting Tree 계열의 모델을 핵심적으로 활용했으며, 딥러닝 모델은 선택적으로 병행되었습니다. - 한 팀은 실시간 서빙이라는 제약 조건 속에서도 260개의 모델을 앙상블하는 파격적인 시도로 성능 극대화를 꾀했습니다. - 단일 시퀀스 피처에서 토큰 개수, 전이 결속도 등 37개의 파생 변수를 생성하여 성능을 높인 사례는 도메인 지식 없이도 순수 데이터 분석만으로 실무 수준 이상의 통찰을 보여준 결과였습니다. **대회의 성과와 실무적 시사점** - 리더보드 상위권 팀들은 공통적으로 시퀀스 피처를 심도 있게 분석하고, 복합적인 모델 앙상블과 더불어 과적합 방지 및 서빙 효율성을 고려한 설계를 제출했습니다. - 오프라인 시상식과 네트워킹을 통해 현업 엔지니어와 참가자들이 기술적 아이디어를 교환하며 실제 비즈니스 문제 해결을 위한 커뮤니티를 형성했습니다. - 익명화된 데이터 환경에서도 창의적인 피처 엔지니어링이 모델 성능을 결정짓는 핵심 요소임을 재확인했으며, 이는 향후 유사한 ML 챌린지 설계의 기준이 될 것으로 보입니다.