차분 프라이버 (새 탭에서 열림)
구글 리서치는 별도의 미세 조정(Fine-tuning) 과정 없이 기성 대규모 언어 모델(LLM)의 추론만을 활용하여 차분 프라이버시(Differential Privacy, DP)가 보장된 합성 데이터를 생성하는 새로운 접근 방식을 제안했습니다. 이 방법은 여러 개의 민감한 예시를 병렬 프롬프트로 입력하고 그 응답을 프라이버시를 보호하는 방식으로 집계하여, 기존 방식보다 훨씬 많은 양의 고품질 데이터를 생성할 수 있게 합니다. 결과적으로 복잡한 DP 학습 파이프라인 없이도 민감한 데이터를 안전하게 대체할 수 있는 고성능 합성 데이터셋 구축이 가능해졌습니다.
병렬 프롬프팅과 토큰 집계 메커니즘
- 민감한 데이터 하나당 하나의 프롬프트를 할당하여 여러 개의 독립적인 프롬프트를 LLM에 동시에 입력합니다.
- 각 프롬프트에서 도출된 다음 토큰 예측(Next-token prediction) 결과들을 집계하고, 특정 개인의 데이터가 결과에 과도한 영향을 미치지 않도록 DP 기법을 적용해 토큰을 최종 선택합니다.
- 선택된 토큰을 모든 프롬프트 끝에 다시 추가하고 다음 토큰을 예측하는 과정을 반복함으로써, 개별 데이터의 세부 정보는 가리면서도 데이터셋 전체의 통계적 특성은 유지하는 합성 텍스트를 생성합니다.
지수 메커니즘을 통한 프라이버시 예산 최적화
- LLM의 표준 생성 과정인 소프트맥스 샘플링(Softmax sampling)과 DP의 핵심 기법인 지수 메커니즘(Exponential mechanism) 사이의 수학적 연결 고리를 활용합니다.
- 다음 토큰을 샘플링할 때 발생하는 고유한 무작위성을 프라이버시 보호를 위한 노이즈로 활용하여, 제한된 프라이버시 예산 안에서도 출력 데이터의 양을 극대화했습니다.
- 이를 통해 기존 연구들이 10개 미만의 데이터 포인트 생성에 그쳤던 것과 달리, 수천 개의 고품질 합성 데이터를 성공적으로 생성하며 실무 적용 가능성을 입증했습니다.
연산 효율성 개선 및 공개 드래프터 도입
- 기존 방식은 매 토큰 생성 시마다 새로운 데이터 배치를 사용해야 했으나, 이번 연구에서는 동일한 문맥을 유지하며 여러 토큰을 생성할 수 있는 새로운 프라이버시 분석 기법을 도입했습니다.
- 이를 통해 KV 캐싱(KV caching)과 같은 표준적인 추론 최적화 기술을 그대로 적용할 수 있어 연산 속도와 효율성을 비약적으로 높였습니다.
- 또한, 민감한 데이터가 아닌 공개 데이터에만 기반해 토큰을 제안하는 '공개 드래프터(Public Drafter)' 모델과 희소 벡터 기법(Sparse Vector Technique)을 결합했습니다. 문장 구조나 서식 등 일반적인 정보 생성에는 프라이버시 예산을 소모하지 않도록 설계하여 효율성을 더욱 강화했습니다.
이 방식은 민감한 개인 정보를 다루는 조직이 복잡한 DP 모델 학습 없이도 안전한 합성 데이터를 생성하여 데이터 과학자나 외부 협업 팀에 제공할 수 있는 실무적인 인터페이스 역할을 할 수 있습니다. 특히 데이터 형식이 정형화된 작업에서 높은 성능을 보이므로, 보안이 중요한 환경에서의 데이터 활용도를 높이는 데 적극 권장됩니다.