federated-analytics

1 개의 포스트

AI 활용에 대한 증명 가능한 프 (새 탭에서 열림)

구글 리서치는 생성형 AI 서비스의 사용 패턴을 분석하면서도 사용자 프라이버시를 수학적으로 보장할 수 있는 '증명 가능한 개인정보 보호 인사이트(PPI)' 시스템을 공개했습니다. 이 시스템은 신뢰 실행 환경(TEE), 차분 프라이버시(DP), 그리고 대규모 언어 모델(LLM)을 결합하여 비정형 데이터를 안전하게 분석하는 환경을 구축했습니다. 이를 통해 개발자는 원본 데이터에 접근하지 않고도 AI 도구의 활용 사례와 개선점을 파악할 수 있으며, 모든 처리 과정은 오픈 소스로 공개되어 외부 검증이 가능합니다. **증명 가능한 개인정보 보호 인사이트(PPI)의 구동 원리** * **기기 내 데이터 보호:** 사용자 기기에서 분석할 데이터를 결정한 후 암호화하여 전송하며, 이 데이터는 서버의 TEE 내에서만 복호화될 수 있습니다. * **기밀 연합 분석(CFA) 활용:** Gboard 등에 적용되었던 기술을 발전시켜, 데이터 처리 단계를 기기가 사전에 승인한 로직으로만 제한하고 인간의 개입을 원천 차단합니다. * **데이터 전문가 LLM:** TEE 내부에 배치된 Gemma 3 모델이 "사용자가 어떤 주제를 논의 중인가?"와 같은 특정 질문에 답하는 방식으로 비정형 데이터를 정형화된 요약 정보로 변환합니다. **차분 프라이버시를 통한 익명성 보장** * **통계적 노이즈 추가:** LLM이 추출한 범주형 답변들을 집계할 때 차분 프라이버시 알고리즘을 적용하여 히스토그램을 생성합니다. * **개인 식별 방지:** 특정 개인의 데이터가 전체 통계 결과에 유의미한 영향을 미치지 않도록 설계되어, 분석가가 악의적인 프롬프트를 사용하더라도 개별 사용자를 식별할 수 없습니다. * **프롬프트 유연성:** DP 보증은 집계 알고리즘 단계에서 이루어지므로, 분석가는 프라이버시 침해 걱정 없이 LLM의 프롬프트를 자유롭게 변경하며 다양한 인사이트를 얻을 수 있습니다. **투명성 및 외부 검증 가능성** * **전 과정 오픈 소스화:** 개인정보 보호 집계 알고리즘부터 TEE 스택까지 모든 요소를 'Google Parfait' 프로젝트를 통해 오픈 소스로 공개했습니다. * **재현 가능한 빌드:** 외부 감사자가 공개된 코드와 실제 서버에서 실행 중인 바이너리가 일치하는지 확인할 수 있도록 재현 가능한 빌드 시스템을 지원합니다. * **실제 적용 사례:** Pixel 기기의 녹음기(Recorder) 앱 분석에 이 기술을 적용하여, 오픈 소스 Gemma 모델이 사용자의 녹음 데이터 요약 기능을 어떻게 활용하는지 안전하게 파악하고 있습니다. 생성형 AI의 성능 개선을 위해 실사용 데이터 분석이 필수적인 상황에서, PPI 시스템은 기술적 신뢰를 바탕으로 한 프라이버시 보호의 새로운 기준을 제시합니다. 개발자들은 구글이 공개한 기술 스택을 활용해 데이터 활용의 투명성을 높이고, 사용자의 신뢰를 얻으면서도 정교한 서비스 개선 인사이트를 도출할 수 있을 것입니다.