machine-learning

101 posts

toss

Introducing Toss Place's Data Bot 'PANDA': How every team member works like a data expert (opens in new tab)

안녕하세요. 토스플레이스에서 ‘판다(PANDA)’를 기획하고 만든 Data Analysis Team Leader 김윤아, Data Analytics Engineer 정이을 입니다. 업무를 하다 보면 이런 순간이 있지 않으셨나요? “지금 이 데이터만 빠르게 확인할 수 있으면 좋을텐데.” 대시보드를 찾아 들어가거나, 누군가에게 요청을 남기고 기다리지 않고 필요한 데이터를 바로 꺼내 쓸 수 있다면 어떨까요? 토스플레이스 Data 조직은 AI를 활용해 이런 환경을 만들어 데이터 민주주의를 실현할 수 있…

line

Applying Spark on Kubernetes to process large-scale advertising data for LINE services (opens in new tab)

들어가며 안녕하세요, LINE 서비스의 광고 시스템에서 데이터 파이프라인과 데이터 플랫폼 운영을 담당하고 있는 박민재, 손정호, 정창권입니다. LINE 광고 플랫폼(이하 LINE Ads)은 하루에 수십억 건 이상의 광고를 송출하며, 내부에서는 천억 건에 준하는 데이터를 수집 및 가공하고 있습니다. LINE Ads의 데이터 파이프라인 팀은 광고 효율을 높이기 위해 실시간으로 광고 결과 데이터를 수집, 가공, 저장, 전송하는 역할을 수행합니다. 데이터를 처리하는 과정에서 이벤트 적합성 여부(어뷰징…

line

Image Content Moderation in Large-Scale Service Environments (feat. Multimodal LLM) (opens in new tab)

들어가며 콘텐츠 모더레이션은 사용자가 생성하거나 업로드하는 텍스트, 이미지, 영상, 음성 등의 콘텐츠 중 서비스 정책 및 법적 기준에 위배되는 내용을 탐지해 적절한 조치를 수행하기 위한 기술적 운영 체계를 의미합니다. 단순히 부적절한 콘텐츠를 차단하는 기능을 넘어, 사용자를 보호하고 서비스의 신뢰를 유지하기 위한 핵심 인프라라고 할 수 있습니다. 플랫폼 규모가 커지면서 사용자가 생성하는 콘텐츠의 양이 폭발적으로 증가했고, 그에 따라 유해 콘텐츠가 생성되고 확산되는 속도 또한 과거와 비교할 수 없…