bert

1 개의 포스트

차분 프라이버 (새 탭에서 열림)

구글 리서치는 별도의 미세 조정(Fine-tuning) 과정 없이 기성 대규모 언어 모델(LLM)의 추론만을 활용하여 차분 프라이버시(Differential Privacy, DP)가 보장된 합성 데이터를 생성하는 새로운 접근 방식을 제안했습니다. 이 방법은 여러 개의 민감한 예시를 병렬 프롬프트로 입력하고 그 응답을 프라이버시를 보호하는 방식으로 집계하여, 기존 방식보다 훨씬 많은 양의 고품질 데이터를 생성할 수 있게 합니다. 결과적으로 복잡한 DP 학습 파이프라인 없이도 민감한 데이터를 안전하게 대체할 수 있는 고성능 합성 데이터셋 구축이 가능해졌습니다. ### 병렬 프롬프팅과 토큰 집계 메커니즘 * 민감한 데이터 하나당 하나의 프롬프트를 할당하여 여러 개의 독립적인 프롬프트를 LLM에 동시에 입력합니다. * 각 프롬프트에서 도출된 다음 토큰 예측(Next-token prediction) 결과들을 집계하고, 특정 개인의 데이터가 결과에 과도한 영향을 미치지 않도록 DP 기법을 적용해 토큰을 최종 선택합니다. * 선택된 토큰을 모든 프롬프트 끝에 다시 추가하고 다음 토큰을 예측하는 과정을 반복함으로써, 개별 데이터의 세부 정보는 가리면서도 데이터셋 전체의 통계적 특성은 유지하는 합성 텍스트를 생성합니다. ### 지수 메커니즘을 통한 프라이버시 예산 최적화 * LLM의 표준 생성 과정인 소프트맥스 샘플링(Softmax sampling)과 DP의 핵심 기법인 지수 메커니즘(Exponential mechanism) 사이의 수학적 연결 고리를 활용합니다. * 다음 토큰을 샘플링할 때 발생하는 고유한 무작위성을 프라이버시 보호를 위한 노이즈로 활용하여, 제한된 프라이버시 예산 안에서도 출력 데이터의 양을 극대화했습니다. * 이를 통해 기존 연구들이 10개 미만의 데이터 포인트 생성에 그쳤던 것과 달리, 수천 개의 고품질 합성 데이터를 성공적으로 생성하며 실무 적용 가능성을 입증했습니다. ### 연산 효율성 개선 및 공개 드래프터 도입 * 기존 방식은 매 토큰 생성 시마다 새로운 데이터 배치를 사용해야 했으나, 이번 연구에서는 동일한 문맥을 유지하며 여러 토큰을 생성할 수 있는 새로운 프라이버시 분석 기법을 도입했습니다. * 이를 통해 KV 캐싱(KV caching)과 같은 표준적인 추론 최적화 기술을 그대로 적용할 수 있어 연산 속도와 효율성을 비약적으로 높였습니다. * 또한, 민감한 데이터가 아닌 공개 데이터에만 기반해 토큰을 제안하는 '공개 드래프터(Public Drafter)' 모델과 희소 벡터 기법(Sparse Vector Technique)을 결합했습니다. 문장 구조나 서식 등 일반적인 정보 생성에는 프라이버시 예산을 소모하지 않도록 설계하여 효율성을 더욱 강화했습니다. 이 방식은 민감한 개인 정보를 다루는 조직이 복잡한 DP 모델 학습 없이도 안전한 합성 데이터를 생성하여 데이터 과학자나 외부 협업 팀에 제공할 수 있는 실무적인 인터페이스 역할을 할 수 있습니다. 특히 데이터 형식이 정형화된 작업에서 높은 성능을 보이므로, 보안이 중요한 환경에서의 데이터 활용도를 높이는 데 적극 권장됩니다.