쿠팡 / nlp

2 개의 포스트

coupang

Accelerating Coupang’s AI Journey with LLMs (새 탭에서 열림)

쿠팡은 검색, 광고, 물류 등 서비스 전반에 걸쳐 머신러닝(ML) 기술을 적극적으로 활용하고 있으며, 최근에는 대규모 언어 모델(LLM)을 도입해 AI 혁신을 가속화하고 있습니다. LLM은 다국어 환경과 방대한 상품 데이터를 처리하는 데 탁월한 성능을 보이며, 효율적인 모델 학습과 추론을 위한 플랫폼 인프라의 최적화가 이 과정의 핵심 동력이 되고 있습니다. 쿠팡은 이를 통해 고객 경험을 개선하고 운영 효율성을 극대화하는 성과를 거두고 있습니다. **쿠팡의 머신러닝 활용 영역** * **추천 시스템:** 사용자 클릭, 구매 이력, 장바구니 담기 등 대규모 상호작용 데이터와 사람이 직접 라벨링한 관련성 판단 지표를 기반으로 홈 피드, 검색, 광고의 개인화를 구현합니다. * **콘텐츠 이해:** 상품 카탈로그(텍스트, 이미지), 사용자 리뷰, 검색어 등 방대한 데이터를 딥러닝으로 분석해 상품과 고객에 대한 표현(Representation)을 학습하고 이를 쇼핑 경험 개선에 활용합니다. * **예측 모델링:** 100개 이상의 물류 센터(FC) 내 수백만 개 상품에 대한 수요, 가격, 배송 경로를 예측하며, 기존 통계적 기법에 딥러닝 기술을 점진적으로 결합하고 있습니다. **멀티모달 기반의 이미지 및 언어 이해** * **Vision-Language Transformer:** 이미지와 텍스트 데이터를 별개로 처리하던 기존 방식에서 벗어나, 두 데이터를 동시에 모델링하는 트랜스포머 모델을 통해 더욱 정교한 임베딩(Embedding)을 생성합니다. * **검색 및 추천 고도화:** 생성된 임베딩은 광고 검색, 유사 상품 찾기 및 추천 모델의 핵심 피처로 활용되어 사용자에게 더 적합한 결과를 제공합니다. * **다양한 서비스 적용:** 한국어와 대만어 간의 상품명 번역, 쇼핑 피드 이미지 품질 개선, 사용자 리뷰 요약, 상품 및 판매자 키워드 자동 생성 등 다양한 영역에서 대규모 모델이 성공적으로 적용되었습니다. **데이터 레이블링 및 속성 추출 혁신** * **대규모 약지도 학습(Weak Label) 생성:** 사람이 직접 수행하기에 비용과 시간이 많이 드는 다국어(한국어, 영어, 중국어 등) 레이블링 작업을 LLM이 수행하여, 모델 학습을 위한 기초 데이터를 대규모로 확보합니다. * **데이터 부족 문제 해결:** 학습 데이터가 부족한 새로운 카테고리나 세그먼트에서 LLM이 생성한 레이블을 통해 모델의 성능을 빠르게 안정화하고 관련성 모델의 품질을 높입니다. * **통합 모델링으로의 전환:** 과거에는 상품 카테고리별로 개별 ML 모델을 구축해야 했으나, 이제는 통합된 LLM을 통해 상품 분류 및 속성 추출 프로세스를 간소화하고 효율성을 높이고 있습니다. 쿠팡은 LLM을 단순한 기술 도입을 넘어 인프라 최적화와 결합하여 실제 비즈니스 가치를 창출하는 핵심 도구로 활용하고 있습니다. 특히 다국어 지원과 대규모 데이터 처리가 필수적인 글로벌 이커머스 환경에서, LLM 기반의 플랫폼 전략은 향후 AI 경쟁력을 좌우하는 중요한 기반이 될 것입니다.

coupang

Meet Coupang’s Machine Learning Platform (새 탭에서 열림)

쿠팡의 머신러닝 플랫폼은 데이터 탐색부터 모델 배포에 이르는 전체 ML 생애주기를 가속화하여 개발 생산성을 혁신적으로 높이는 것을 목표로 합니다. 이를 통해 검색, 가격 책정, 물류 최적화 등 쿠팡의 다양한 서비스에 머신러닝을 효율적으로 적용하고 있으며, 인프라 관리 부담을 줄여 엔지니어들이 모델 고도화에만 집중할 수 있는 환경을 제공합니다. 결과적으로 이 플랫폼은 복잡한 비즈니스 문제를 해결하는 핵심 기술 기반으로서 쿠팡의 비즈니스 성장을 견인하고 있습니다. **플랫폼 구축의 동기와 목표** * **생산 모드 전환 시간 단축**: 실험 단계의 모델을 실제 서비스 환경에 배포하기까지 걸리는 시간을 줄여 비즈니스 요구사항에 빠르게 대응합니다. * **ML 개발의 CI/CD 도입**: 소프트웨어 공학의 지속적 통합 및 배포(CI/CD) 개념을 ML에 접목하여, 모델 학습과 배포 과정을 자동화하고 일관된 품질을 유지합니다. * **컴퓨팅 자원의 효율적 확장**: 하부 인프라에 대한 개입 없이도 대규모 학습 및 추론을 수행할 수 있도록 유연한 확장성을 제공하여 비용과 성능을 최적화합니다. **플랫폼의 핵심 기능 및 구성 요소** * **관리형 노트북 및 파이프라인 SDK**: 데이터 과학자들이 익숙한 Jupyter 기반 환경에서 작업할 수 있도록 지원하며, 전용 SDK를 통해 복잡한 ML 파이프라인을 손쉽게 정의하고 실행할 수 있습니다. * **피처 스토어(Feature Store)**: 학습과 추론 단계에서 동일한 피처 데이터를 재사용하고 공유할 수 있는 중앙 저장소를 제공하여, 데이터 정합성 문제를 해결하고 개발 효율을 높입니다. * **모델 학습 및 추론 서비스**: 다양한 ML 프레임워크를 지원하는 매니지드 학습 환경과, 대규모 트래픽을 처리할 수 있는 실시간 및 배치 추론 인프라를 운영합니다. * **모니터링 및 관측 가능성**: 배포된 모델의 성능 저하(Drift)나 이상 징후를 실시간으로 추적하여 모델의 신뢰성을 보장하고 신속한 재학습 여부를 결정합니다. **주요 성공 사례** * **Ko-BERT를 통한 검색 고도화**: 한국어 특화 언어 모델인 Ko-BERT를 학습시켜 고객의 검색 쿼리 의도를 더 정확하게 파악하고 상품 검색의 질을 향상시켰습니다. * **실시간 가격 예측**: 수백만 개의 상품에 대해 시장 변화를 즉각적으로 반영하는 실시간 가격 예측 모델을 성공적으로 배포하여 비즈니스 의사결정을 지원하고 있습니다. 쿠팡 ML 플랫폼은 단순히 도구의 집합을 넘어, 데이터 과학자가 비즈니스 가치 창출에만 전념할 수 있도록 돕는 강력한 엔지니어링 생태계입니다. 대규모 데이터와 복잡한 모델을 다루는 조직이라면 쿠팡의 사례처럼 파이프라인 자동화와 피처 정합성을 보장하는 통합 플랫폼 구축을 통해 개발 사이클을 획기적으로 단축할 수 있습니다.