scaling-laws

1 개의 포스트

VaultGemma: 세계에서 가장 (새 탭에서 열림)

구글 리서치는 차분 프라이버시(Differential Privacy, DP) 기술을 적용해 밑바닥부터 학습시킨 모델 중 세계 최고 성능을 자랑하는 'VaultGemma'를 공개했습니다. 이 모델은 새롭게 정립된 'DP 스케일링 법칙'을 바탕으로 연산량, 프라이버시 예산, 모델 성능 사이의 복잡한 트레이드오프를 최적화하여 설계되었습니다. 10억 개의 파라미터를 보유한 VaultGemma는 강력한 프라이버시 보장과 동시에 실용적인 성능을 입증하며 차세대 보안 AI 개발의 새로운 기준을 제시합니다. ### 차분 프라이버시 환경을 위한 새로운 스케일링 법칙 * **노이즈-배치 비율(Noise-batch ratio)의 중요성:** DP 학습 시 추가되는 무작위 노이즈와 데이터 그룹(배치) 크기 사이의 비율이 모델의 학습 능력을 결정하는 핵심 변수임을 확인했습니다. * **최적 학습 구성의 변화:** 일반적인 모델 학습과 달리, DP 환경에서는 모델 크기를 다소 줄이는 대신 배치 크기를 획기적으로 키우는 것이 성능 최적화에 훨씬 유리하다는 사실을 밝혀냈습니다. * **예산 간의 시너지 효과:** 프라이버시 예산(epsilon)만 늘리는 것은 효율이 낮으며, 반드시 연산 예산(FLOPs)이나 데이터 예산(tokens) 증설이 병행되어야만 성능이 유의미하게 향상됩니다. ### 대규모 학습을 위한 알고리즘 혁신 * **셔플링 기반 프라이버시 증폭:** 대규모 TPU 클러스터에서 구현하기 어려운 포아송 샘플링(Poisson sampling) 대신, 데이터를 무작위로 섞어 프라이버시 효과를 높이는 '셔플 배치 DP-SGD' 기법을 도입했습니다. * **최적화 도구 및 구조:** Gemma 2 아키텍처를 기반으로 하며, DP-AdamW 옵티마이저를 사용해 학습 안정성을 확보하고 계산 효율성을 극대화했습니다. * **프라이버시 회계(Privacy Accounting):** 엄격한 수학적 증명을 통해 $\epsilon=8$, $\delta=10^{-12}$ 수준의 프라이버시 보장을 실현했습니다. ### 성능 평가 및 실전 비교 * **기존 모델 압도:** VaultGemma 1B 모델은 자신보다 훨씬 큰 규모의 DP 모델인 DP-OPT 6.7B보다 MMLU, GSM8K 등 주요 벤치마크에서 월등히 높은 성능을 기록했습니다. * **비 DP 모델과의 경쟁력:** 프라이버시 보호 기술이 적용되었음에도 불구하고, 프라이버시 기능이 없는 표준 GPT-2 모델의 성능을 상회하는 등 실용 가능성을 입증했습니다. * **오픈소스 공개:** 연구 커뮤니티의 발전을 위해 모델 가중치와 기술 보고서를 Hugging Face와 Kaggle에 공개하여 누구나 안전한 AI를 연구할 수 있도록 지원합니다. VaultGemma는 민감한 개인정보나 보안이 중요한 데이터를 다루는 기업 및 연구자들에게 강력한 도구가 될 것입니다. 특히 데이터 암기(Memorization)를 수학적으로 방지해야 하는 환경에서, 이 모델은 프라이버시와 성능이라는 두 마리 토끼를 잡을 수 있는 최적의 출발점을 제공합니다.