대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM) (새 탭에서 열림)
대규모 플랫폼에서의 이미지 콘텐츠 모더레이션은 방대한 데이터 처리 성능과 정교한 맥락 이해라는 두 가지 과제를 동시에 해결해야 하는 고난도 영역입니다. LY Corporation은 전통적인 ML 모델과 멀티모달 LLM을 결합한 하이브리드 구조를 도입하고 vLLM 프레임워크를 최적화함으로써 높은 탐지 정확도와 비용 효율성을 모두 달성했습니다. 이를 통해 단순히 시각적 객체를 인식하는 수준을 넘어, 이미지 내 텍스트와 정황을 결합해 정책 위반의 의도까지 파악할 수 있는 선제적 대응 체계를 구축했습니다.
이미지 모더레이션의 기술적 난제
- 비정형성과 시각적 복잡성: 이미지는 배경, 객체, 구도 등 다양한 요소가 복합적으로 작용하며, 동일한 객체라도 상황에 따라 유해성 여부가 달라지는 맥락 의존성이 높습니다.
- 교묘한 우회 시도: 밈(Meme), 일부 가리기, 생성형 AI를 활용한 합성 등 탐지 시스템을 회피하기 위한 변형이 지속적으로 발생하여 난이도가 상승하고 있습니다.
- 대규모 처리 인프라 요구: 하루 수백만 건 이상의 이미지를 실시간에 가깝게 처리해야 하므로, 높은 정확도뿐만 아니라 낮은 지연 시간(Latency)과 운영 비용 효율이 필수적입니다.
높은 정확도와 처리 속도를 위한 3단계 최적화
- 전통적 ML 모델의 고도화: PyTorch 기반 모델을 ONNX 형식으로 변환하고 FP16(Half Precision) 정밀도를 적용하여, 메모리 사용량을 줄이면서도 처리량을 최대 4.3배까지 개선했습니다.
- ML과 LLM의 하이브리드 파이프라인: 1차 필터(ML 모델)가 명확한 데이터를 90% 이상 신속히 처리하고, 판단이 모호한 사례만 2차 필터(멀티모달 LLM)로 전달하여 LLM의 높은 연산 비용을 효율적으로 관리합니다.
- vLLM 기반 성능 극대화:
enable_prefix_caching: 반복되는 시스템 프롬프트의 KV 캐시를 재사용하여 연산량을 절감했습니다.max_model_len및max_num_seqs: 메모리 과할당을 방지하고 서비스 특성에 맞는 동시 처리 수를 조절하여 지연 시간을 안정화했습니다.max_num_batched_tokens: 프리필(Prefill) 중심의 워크로드에 맞춰 설정하여 GPU 자원 활용도를 높였습니다.
맥락과 의도를 파악하는 하이브리드 판별 구조
- 단일 모델의 한계 극복: 특정 객체의 존재 여부만 학습하던 기존 엔드 투 엔드(End-to-End) 모델에서 벗어나, 국가별·서비스별로 복잡한 정책을 유연하게 적용할 수 있는 구조로 재설계했습니다.
- 시각 정보와 텍스트의 결합: OCR(광학 문자 인식) API를 통합하여 이미지 내 텍스트를 추출하고, 이를 시각 정보와 결합해 단순 노출이 아닌 '판매 행위'나 '특정 의도'가 담긴 콘텐츠를 정교하게 판별합니다.
- 확장성 있는 의사 결정: 모든 정책을 모델이 직접 학습하는 대신, 정보를 분리하여 추출하고 멀티모달 LLM이 추론하는 방식을 통해 빠르게 변화하는 운영 정책에 유연하게 대응합니다.
실용적인 권장 사항
대규모 이미지 모더레이션 시스템을 설계할 때는 모든 데이터를 고성능 모델로 처리하기보다, 데이터의 분포를 분석하여 다수의 일반 케이스를 저비용 모델로 걸러내는 계층적 구조를 설계하는 것이 중요합니다. 또한 vLLM과 같은 최신 서빙 프롬프트의 최적화 옵션을 적극적으로 활용하고, 비동기 스케줄링 및 양자화 기술을 지속적으로 업데이트하여 인프라 효율을 높일 것을 권장합니다.