clustering

3 개의 포스트

오픈챗 메시지들로부터 트렌딩 키워드 추출하기 (새 탭에서 열림)

LINE 오픈챗은 사용자 참여를 높이기 위해 채팅방 중심의 추천에서 메시지 콘텐츠 기반의 트렌딩 키워드 추천으로의 변화를 시도하고 있습니다. 이를 위해 일주일 전 대비 빈도가 급증한 단어를 Z-테스트 통계량으로 추출하는 기법을 도입했으며, 중복 메시지로 인한 노이즈를 제거하기 위해 MinHash 알고리즘을 활용한 데이터 정제 과정을 적용했습니다. 이러한 기술적 접근은 일상적인 대화 속에서 실시간 화젯거리를 효과적으로 발굴하여 서비스 활성도를 높이는 데 기여합니다. ## 트렌딩 키워드 추출의 배경과 목적 * 기존 오픈챗 메인 화면은 채팅방 검색과 추천 위주로 구성되어 있어, 이미 특정 방에 정착한 사용자가 새로운 콘텐츠를 탐색할 동기가 부족했습니다. * 개별 메시지는 단건으로 보면 맥락 파악이 어렵고 비문이 많으므로, 유사한 주제의 메시지들을 키워드 중심으로 묶어 가시적인 콘텐츠 덩어리로 제공하는 전략을 수립했습니다. * 이는 마이크로 블로그 서비스가 개별 포스트를 메인에 노출하여 재방문율을 높이는 방식과 유사하며, 사용자들에게 신선한 즐길 거리를 제공하여 서비스 KPI를 개선하고자 했습니다. ## Z-테스트 기반의 화제어 탐지 기법 * 단순 빈도 기반 추출 시 발생하는 일상어(인사, 환영 등) 편중 문제를 해결하기 위해, 빈도 자체가 아닌 '빈도의 급격한 증가량'을 기준으로 트렌딩 키워드를 정의했습니다. * 비교 기준점을 하루 전이 아닌 '일주일 전(D-7)'으로 설정하여, 요일별 반복 단어를 억제하고 며칠간 지속되는 트렌드 피크를 놓치지 않도록 설계했습니다. * 이표본 모비율 차 검정을 위한 Z-테스트 통계량을 사용하여 각 단어의 점수를 계산하며, 이를 통해 빈도수가 작을 때 발생하는 노이즈 효과를 확률 이론에 근거해 제어했습니다. * 통계적 유의미함을 확보하기 위해 빈도가 최소 30% 이상 증가한 단어들만을 최종 후보군으로 선정합니다. ## MinHash를 활용한 중복 메시지 정제 * 복사 및 붙여넣기 등으로 생성된 중복 메시지가 빈도 집계에 미치는 왜곡을 방지하기 위해 집계 전 단계에서 데이터 정제 과정을 거칩니다. * 대량의 텍스트 데이터를 효율적으로 처리하기 위해 차원 축소 기법인 MinHash를 도입하여 유사한 메시지들을 클러스터링했습니다. * 텍스트를 명사 위주로 토큰화(슁글링)한 후 k-MinHash 시그니처를 생성하고, 동일한 시그니처를 가진 메시지 묶음 중 하나만 남기고 나머지는 제거합니다. * 클러스터 내 집합들의 합집합과 교집합 크기를 비교하는 선형 시간 복잡도의 다양성 지표(SetDiv)를 정의하여, 최적의 중복 제거 정밀도를 유지하기 위한 시그니처 길이(k)를 결정했습니다. 단순한 통계 수치를 넘어 채팅 데이터의 특성인 반복성과 중복성을 기술적으로 해결한 이 방식은 실시간 커뮤니티의 활성도를 시각화하는 데 매우 유용합니다. 특히 일주일 전 데이터를 기준선으로 삼는 전략과 MinHash를 이용한 효율적인 중복 제거는 대규모 텍스트 데이터를 다루는 서비스에서 실무적으로 즉시 적용 가능한 강력한 방법론입니다.

10억 파라미터의 (새 탭에서 열림)

구글 리서치에서 발표한 **CTCL(Data Synthesis with ConTrollability and CLustering)** 프레임워크는 수십억 개의 파라미터를 가진 대규모 언어 모델(LLM) 없이도 고품질의 차분 프라이버시(DP) 합성 데이터를 생성할 수 있는 혁신적인 방법론을 제시합니다. 1억 4천만 개의 파라미터를 가진 경량 모델을 활용함으로써 자원이 제한된 환경에서도 효과적인 데이터 합성을 가능하게 하며, 프라이버시 보존과 데이터 유용성 사이의 균형을 성공적으로 달성했습니다. 이 방식은 기존 LLM 미세 조정 방식보다 비용 효율적이면서도 특정 주제별 분포를 정확하게 재현할 수 있다는 결론을 도출했습니다. ### 기존 합성 데이터 생성의 한계와 CTCL의 등장 * **기존 방식의 문제점:** 차분 프라이버시(DP)를 준수하는 대규모 합성 데이터를 만들려면 일반적으로 수십억 파라미터 규모의 LLM을 미세 조정해야 하므로 막대한 계산 비용이 발생합니다. * **API 기반 방식의 한계:** 최근 제안된 Aug-PE나 Pre-Text 같은 알고리즘은 모델 직접 학습 대신 API를 활용하지만, 수동 프롬프트에 의존도가 높고 프라이빗 정보를 데이터 선택 과정에 효과적으로 반영하지 못하는 단점이 있습니다. * **CTCL의 대안:** CTCL은 경량 모델(140M BART-base)을 사용하면서도, 프라이빗 데이터의 주제 분포를 자동으로 매칭하는 조건부 생성 방식을 채택하여 이러한 제약을 극복합니다. ### 핵심 구성 요소: CTCL-Topic과 CTCL-Generator * **CTCL-Topic (주제 모델):** 위키피디아 데이터를 기반으로 구축된 범용 주제 모델입니다. 약 600만 개의 문서를 1,000개의 클러스터(주제)로 분류하고, 각 주제를 대표하는 10개의 키워드를 추출하여 데이터의 고차원적 테마를 포착합니다. * **CTCL-Generator (조건부 생성기):** 1억 4천만 파라미터 규모의 BART-base 모델을 기반으로 합니다. Gemma-2-2B를 이용해 생성한 4억 3천만 개의 '설명-문서' 쌍으로 사전 학습되어, 특정 키워드나 문서 유형이 주어지면 그에 맞는 내용을 생성하는 강력한 제어 능력을 갖췄습니다. ### 3단계 데이터 합성 프로세스 1. **사전 개발:** 대규모 공개 코퍼스를 사용하여 CTCL-Topic과 CTCL-Generator를 단 한 번 개발합니다. 이 모델들은 이후 다양한 프라이빗 도메인에 범용적으로 적용될 수 있습니다. 2. **프라이빗 도메인 학습:** 프라이빗 데이터 세트의 주제별 분포(히스토그램)를 DP 방식으로 수집합니다. 동시에 프라이빗 문서에서 추출된 주제 키워드를 활용해 CTCL-Generator를 DP 미세 조정하여 해당 도메인의 특성을 학습시킵니다. 3. **합성 데이터 생성:** 수집된 DP 주제 히스토그램의 비율에 맞춰 생성 모델을 샘플링합니다. DP의 '후처리 속성(Post-processing property)' 덕분에, 한 번 학습된 모델로부터 추가적인 프라이버시 비용 소모 없이 무제한으로 합성 데이터를 생성할 수 있습니다. ### 성능 평가 및 실무적 시사점 * **성능 우위:** 다양한 데이터 세트에서 평가한 결과, 특히 강력한 프라이버시 보장(Strong DP) 조건 하에서 기존 베이스라인 모델들을 일관되게 능가하는 성능을 보였습니다. * **확장성 및 효율성:** 수십억 파라미터 모델을 쓰지 않고도 주제별 분포 매칭이 가능하며, Aug-PE 알고리즘 대비 뛰어난 확장성을 입증했습니다. * **실용적 권장:** 자원이 제한된 환경에서 프라이버시를 보호하며 특정 도메인의 텍스트 데이터를 대량으로 생성해야 하는 경우, 무거운 LLM 미세 조정 대신 CTCL과 같은 경량 조건부 생성 프레임워크를 도입하는 것이 비용과 품질 면에서 매우 효율적인 전략이 될 수 있습니다.

고충실도 레이블을 통한 (새 탭에서 열림)

구글 애즈(Google Ads) 연구팀은 대규모 언어 모델(LLM) 파인튜닝에 필요한 학습 데이터의 양을 획기적으로 줄이면서도 모델의 정확도를 높일 수 있는 새로운 능동 학습(Active Learning) 기반의 큐레이션 프로세스를 개발했습니다. 이 방법론은 수천억 개의 예시 중 전문가의 주석이 가장 가치 있는 데이터를 반복적으로 식별하여, 기존 10만 개 이상의 데이터가 필요했던 작업을 500개 미만의 데이터만으로 수행하면서 전문가와의 정렬도를 최대 65% 향상시켰습니다. 이를 통해 안전 정책 변화나 새로운 유형의 부적절한 콘텐츠에 대응하는 비용을 크게 절감하고 모델의 신뢰성을 확보할 수 있게 되었습니다. **능동 학습 기반의 데이터 큐레이션 프로세스** * **초기 라벨링 및 클러스터링**: 먼저 퓨샷(Few-shot) 프롬프트가 적용된 LLM-0 모델을 사용하여 대규모 데이터셋을 '정책 위반' 또는 '정상'으로 분류합니다. 이때 발생하는 데이터 불균형과 모델의 낮은 정답률을 해결하기 위해, 각 라벨별로 데이터를 클러스터링합니다. * **경계 영역 샘플링**: 서로 다른 라벨을 가졌음에도 클러스터가 겹치는 구간, 즉 모델이 혼동을 느끼는 결정 경계(Decision Boundary) 부근에서 서로 가장 가까운 데이터 쌍을 찾아냅니다. * **정보성 및 다양성 확보**: 추출된 데이터 쌍 중에서도 전체 탐색 공간을 가장 잘 대변하는 샘플을 우선적으로 선별하여 전문가에게 전달함으로써, 적은 수의 샘플로도 높은 정보성과 다양성을 동시에 확보합니다. * **반복적 파인튜닝**: 전문가가 라벨링한 데이터를 평가용과 학습용으로 나누어 모델을 파인튜닝하며, 모델과 전문가 사이의 정렬도가 전문가들 사이의 합의 수준에 도달하거나 성능이 정체될 때까지 이 과정을 반복합니다. **객관적 성능 평가를 위한 코헨 카파(Cohen’s Kappa) 지표 활용** * 광고 안전성 검토와 같은 영역은 정답(Ground Truth)이 모호한 경우가 많아 정밀도나 재현율 같은 기존 지표 대신 '코헨 카파' 지표를 사용합니다. * 코헨 카파는 두 명의 평가자가 우연히 일치할 확률을 제외하고 얼마나 일관되게 동의하는지를 측정하며, 0.8 이상은 매우 우수한 수준, 0.4 이상은 수용 가능한 수준으로 간주합니다. * 이 지표는 데이터셋의 품질을 모니터링하는 지표인 동시에, 모델이 전문가의 판단 기준에 얼마나 근접했는지를 나타내는 핵심 성능 지표로 활용됩니다. **Gemini Nano 모델을 통한 실험 및 성능 검증** * 연구팀은 1.8B 파라미터의 Gemini Nano-1과 3.25B의 Nano-2 모델을 대상으로 복잡도가 다른 두 가지 과제에 대해 성능을 테스트했습니다. * **데이터 효율성**: 기존에 크라우드소싱을 통해 수집한 10만 개의 데이터를 학습시킨 모델보다, 단 250~400개의 전문가 큐레이션 데이터를 학습시킨 모델이 훨씬 뛰어난 성능을 보였습니다. * **성능 향상**: 복잡도가 높은 과제에서 크라우드소싱 데이터 기반 모델의 카파 지수는 0.41에 불과했으나, 큐레이션 프로세스를 거친 모델은 전문가 합의 수준인 0.78에 근접하는 성과를 거두었습니다. * 결과적으로 대규모 모델을 사용하는 실제 프로덕션 시스템에서는 데이터 규모를 최대 10,000배까지 줄이면서도 품질을 유지하거나 개선할 수 있음을 입증했습니다. 이 연구는 데이터의 '양'보다 '질'과 '선택 방식'이 LLM 성능 향상에 더 결정적임을 보여줍니다. 특히 전문가의 개입이 필요한 모호한 분류 작업에서 비용 효율적으로 고성능 모델을 구축하고자 하는 조직에게 이 능동 학습 기반 큐레이션은 매우 실용적인 가이드라인이 될 것입니다.