합성 및 연합: 모바일 애플리케이션을 위한 LLM 기반 개인정보 보호 도메인 적응 (새 탭에서 열림)
구글 리서치는 개인정보를 보호하면서도 모바일 사용자 경험을 혁신하기 위해 거대언어모델(LLM)을 활용한 합성 데이터 생성과 연합 학습(Federated Learning) 기술을 결합하는 방안을 제시했습니다. 이 기술은 Gboard의 오타 교정, 다음 단어 예측 등 핵심 기능을 고도화하는 데 사용되며, 실제 사용자 데이터를 직접 노출하지 않고도 모델의 도메인 적응 성능을 획기적으로 높였습니다. 결과적으로 차등 개인정보 보호(Differential Privacy)가 적용된 연합 학습 모델이 실제 서비스에 성공적으로 배포되어, 보안과 성능을 동시에 확보할 수 있음을 입증했습니다. **LLM을 활용한 고품질 합성 데이터 생성** * 공개된 데이터를 학습한 강력한 LLM을 사용하여 모바일 사용자의 타이핑 특성을 반영한 합성 데이터를 생성합니다. * 사용자의 민감한 개인 데이터에 직접 접근하는 대신, LLM이 공개 데이터셋에서 모바일 상호작용과 유사한 텍스트를 필터링하거나 직접 생성하도록 유도하는 프롬프트 엔지니어링을 활용합니다. * 이렇게 생성된 합성 데이터는 소형 모델(Small LM)의 사전 학습 단계에서 활용되어, 개인정보 암기 위험을 최소화하면서도 타겟 도메인에 최적화된 성능을 낼 수 있도록 돕습니다. **연합 학습과 차등 개인정보 보호의 결합 (DP-FL)** * Gboard의 모든 생산용 언어 모델은 사용자 기기 내에서 데이터를 처리하는 연합 학습(FL)과 데이터 노출을 통계적으로 제한하는 차등 개인정보 보호(DP) 기술을 적용합니다. * 새로운 알고리즘인 'BLT-DP-FTRL'을 도입하여 개인정보 보호 수준과 모델 성능 사이의 최적의 균형을 유지하며, 배포의 편의성을 높였습니다. * 온디바이스 환경에 최적화된 'SI-CIFG' 모델 아키텍처를 사용하여 기기 내에서의 효율적인 학습과 DP 알고리즘 간의 호환성을 확보했습니다. **오류 교정 및 도메인 적응 성능 강화** * LLM을 통해 정제된 텍스트를 생성한 후, 의도적으로 오타나 문법 오류를 삽입하여 '오류-교정' 쌍의 합성 데이터를 대량으로 확보합니다. * 이 합성 데이터로 모델을 학습시킴으로써 모바일 기기에서의 교정 제안 및 맞춤법 검사 기능을 정교화했습니다. * 실제 환경 적용 결과, 주요 생산성 지표에서 3%~13%의 성능 향상을 기록하며 모바일 타이핑 경험을 실질적으로 개선했습니다. 합성 데이터와 연합 학습의 조합은 개인정보를 철저히 보호하면서도 고성능 AI 서비스를 제공할 수 있는 강력한 기술적 프레임워크를 제공합니다. 특히 데이터 보안이 중요한 모바일 환경에서 LLM의 생성 능력을 활용해 데이터 부족 문제를 해결하고 모델을 고도화하는 전략은 향후 다양한 AI 애플리케이션의 핵심적인 표준이 될 것으로 기대됩니다.