고충실도 레이블을 통한 (새 탭에서 열림)
구글 애즈(Google Ads) 연구팀은 대규모 언어 모델(LLM) 파인튜닝에 필요한 학습 데이터의 양을 획기적으로 줄이면서도 모델의 정확도를 높일 수 있는 새로운 능동 학습(Active Learning) 기반의 큐레이션 프로세스를 개발했습니다. 이 방법론은 수천억 개의 예시 중 전문가의 주석이 가장 가치 있는 데이터를 반복적으로 식별하여, 기존 10만 개 이상의 데이터가 필요했던 작업을 500개 미만의 데이터만으로 수행하면서 전문가와의 정렬도를 최대 65% 향상시켰습니다. 이를 통해 안전 정책 변화나 새로운 유형의 부적절한 콘텐츠에 대응하는 비용을 크게 절감하고 모델의 신뢰성을 확보할 수 있게 되었습니다. **능동 학습 기반의 데이터 큐레이션 프로세스** * **초기 라벨링 및 클러스터링**: 먼저 퓨샷(Few-shot) 프롬프트가 적용된 LLM-0 모델을 사용하여 대규모 데이터셋을 '정책 위반' 또는 '정상'으로 분류합니다. 이때 발생하는 데이터 불균형과 모델의 낮은 정답률을 해결하기 위해, 각 라벨별로 데이터를 클러스터링합니다. * **경계 영역 샘플링**: 서로 다른 라벨을 가졌음에도 클러스터가 겹치는 구간, 즉 모델이 혼동을 느끼는 결정 경계(Decision Boundary) 부근에서 서로 가장 가까운 데이터 쌍을 찾아냅니다. * **정보성 및 다양성 확보**: 추출된 데이터 쌍 중에서도 전체 탐색 공간을 가장 잘 대변하는 샘플을 우선적으로 선별하여 전문가에게 전달함으로써, 적은 수의 샘플로도 높은 정보성과 다양성을 동시에 확보합니다. * **반복적 파인튜닝**: 전문가가 라벨링한 데이터를 평가용과 학습용으로 나누어 모델을 파인튜닝하며, 모델과 전문가 사이의 정렬도가 전문가들 사이의 합의 수준에 도달하거나 성능이 정체될 때까지 이 과정을 반복합니다. **객관적 성능 평가를 위한 코헨 카파(Cohen’s Kappa) 지표 활용** * 광고 안전성 검토와 같은 영역은 정답(Ground Truth)이 모호한 경우가 많아 정밀도나 재현율 같은 기존 지표 대신 '코헨 카파' 지표를 사용합니다. * 코헨 카파는 두 명의 평가자가 우연히 일치할 확률을 제외하고 얼마나 일관되게 동의하는지를 측정하며, 0.8 이상은 매우 우수한 수준, 0.4 이상은 수용 가능한 수준으로 간주합니다. * 이 지표는 데이터셋의 품질을 모니터링하는 지표인 동시에, 모델이 전문가의 판단 기준에 얼마나 근접했는지를 나타내는 핵심 성능 지표로 활용됩니다. **Gemini Nano 모델을 통한 실험 및 성능 검증** * 연구팀은 1.8B 파라미터의 Gemini Nano-1과 3.25B의 Nano-2 모델을 대상으로 복잡도가 다른 두 가지 과제에 대해 성능을 테스트했습니다. * **데이터 효율성**: 기존에 크라우드소싱을 통해 수집한 10만 개의 데이터를 학습시킨 모델보다, 단 250~400개의 전문가 큐레이션 데이터를 학습시킨 모델이 훨씬 뛰어난 성능을 보였습니다. * **성능 향상**: 복잡도가 높은 과제에서 크라우드소싱 데이터 기반 모델의 카파 지수는 0.41에 불과했으나, 큐레이션 프로세스를 거친 모델은 전문가 합의 수준인 0.78에 근접하는 성과를 거두었습니다. * 결과적으로 대규모 모델을 사용하는 실제 프로덕션 시스템에서는 데이터 규모를 최대 10,000배까지 줄이면서도 품질을 유지하거나 개선할 수 있음을 입증했습니다. 이 연구는 데이터의 '양'보다 '질'과 '선택 방식'이 LLM 성능 향상에 더 결정적임을 보여줍니다. 특히 전문가의 개입이 필요한 모호한 분류 작업에서 비용 효율적으로 고성능 모델을 구축하고자 하는 조직에게 이 능동 학습 기반 큐레이션은 매우 실용적인 가이드라인이 될 것입니다.