Google Research / gemma

8 개의 포스트

google

Toward provably private insights into AI use (새 탭에서 열림)

구글 리서치는 생성형 AI 서비스의 사용 패턴을 분석하면서도 사용자 프라이버시를 수학적으로 보장할 수 있는 '증명 가능한 개인정보 보호 인사이트(PPI)' 시스템을 공개했습니다. 이 시스템은 신뢰 실행 환경(TEE), 차분 프라이버시(DP), 그리고 대규모 언어 모델(LLM)을 결합하여 비정형 데이터를 안전하게 분석하는 환경을 구축했습니다. 이를 통해 개발자는 원본 데이터에 접근하지 않고도 AI 도구의 활용 사례와 개선점을 파악할 수 있으며, 모든 처리 과정은 오픈 소스로 공개되어 외부 검증이 가능합니다. **증명 가능한 개인정보 보호 인사이트(PPI)의 구동 원리** * **기기 내 데이터 보호:** 사용자 기기에서 분석할 데이터를 결정한 후 암호화하여 전송하며, 이 데이터는 서버의 TEE 내에서만 복호화될 수 있습니다. * **기밀 연합 분석(CFA) 활용:** Gboard 등에 적용되었던 기술을 발전시켜, 데이터 처리 단계를 기기가 사전에 승인한 로직으로만 제한하고 인간의 개입을 원천 차단합니다. * **데이터 전문가 LLM:** TEE 내부에 배치된 Gemma 3 모델이 "사용자가 어떤 주제를 논의 중인가?"와 같은 특정 질문에 답하는 방식으로 비정형 데이터를 정형화된 요약 정보로 변환합니다. **차분 프라이버시를 통한 익명성 보장** * **통계적 노이즈 추가:** LLM이 추출한 범주형 답변들을 집계할 때 차분 프라이버시 알고리즘을 적용하여 히스토그램을 생성합니다. * **개인 식별 방지:** 특정 개인의 데이터가 전체 통계 결과에 유의미한 영향을 미치지 않도록 설계되어, 분석가가 악의적인 프롬프트를 사용하더라도 개별 사용자를 식별할 수 없습니다. * **프롬프트 유연성:** DP 보증은 집계 알고리즘 단계에서 이루어지므로, 분석가는 프라이버시 침해 걱정 없이 LLM의 프롬프트를 자유롭게 변경하며 다양한 인사이트를 얻을 수 있습니다. **투명성 및 외부 검증 가능성** * **전 과정 오픈 소스화:** 개인정보 보호 집계 알고리즘부터 TEE 스택까지 모든 요소를 'Google Parfait' 프로젝트를 통해 오픈 소스로 공개했습니다. * **재현 가능한 빌드:** 외부 감사자가 공개된 코드와 실제 서버에서 실행 중인 바이너리가 일치하는지 확인할 수 있도록 재현 가능한 빌드 시스템을 지원합니다. * **실제 적용 사례:** Pixel 기기의 녹음기(Recorder) 앱 분석에 이 기술을 적용하여, 오픈 소스 Gemma 모델이 사용자의 녹음 데이터 요약 기능을 어떻게 활용하는지 안전하게 파악하고 있습니다. 생성형 AI의 성능 개선을 위해 실사용 데이터 분석이 필수적인 상황에서, PPI 시스템은 기술적 신뢰를 바탕으로 한 프라이버시 보호의 새로운 기준을 제시합니다. 개발자들은 구글이 공개한 기술 스택을 활용해 데이터 활용의 투명성을 높이고, 사용자의 신뢰를 얻으면서도 정교한 서비스 개선 인사이트를 도출할 수 있을 것입니다.

google

VaultGemma: The world's most capable differentially private LLM (새 탭에서 열림)

구글 리서치는 차분 프라이버시(Differential Privacy, DP) 기술을 적용해 밑바닥부터 학습시킨 모델 중 세계 최고 성능을 자랑하는 'VaultGemma'를 공개했습니다. 이 모델은 새롭게 정립된 'DP 스케일링 법칙'을 바탕으로 연산량, 프라이버시 예산, 모델 성능 사이의 복잡한 트레이드오프를 최적화하여 설계되었습니다. 10억 개의 파라미터를 보유한 VaultGemma는 강력한 프라이버시 보장과 동시에 실용적인 성능을 입증하며 차세대 보안 AI 개발의 새로운 기준을 제시합니다. ### 차분 프라이버시 환경을 위한 새로운 스케일링 법칙 * **노이즈-배치 비율(Noise-batch ratio)의 중요성:** DP 학습 시 추가되는 무작위 노이즈와 데이터 그룹(배치) 크기 사이의 비율이 모델의 학습 능력을 결정하는 핵심 변수임을 확인했습니다. * **최적 학습 구성의 변화:** 일반적인 모델 학습과 달리, DP 환경에서는 모델 크기를 다소 줄이는 대신 배치 크기를 획기적으로 키우는 것이 성능 최적화에 훨씬 유리하다는 사실을 밝혀냈습니다. * **예산 간의 시너지 효과:** 프라이버시 예산(epsilon)만 늘리는 것은 효율이 낮으며, 반드시 연산 예산(FLOPs)이나 데이터 예산(tokens) 증설이 병행되어야만 성능이 유의미하게 향상됩니다. ### 대규모 학습을 위한 알고리즘 혁신 * **셔플링 기반 프라이버시 증폭:** 대규모 TPU 클러스터에서 구현하기 어려운 포아송 샘플링(Poisson sampling) 대신, 데이터를 무작위로 섞어 프라이버시 효과를 높이는 '셔플 배치 DP-SGD' 기법을 도입했습니다. * **최적화 도구 및 구조:** Gemma 2 아키텍처를 기반으로 하며, DP-AdamW 옵티마이저를 사용해 학습 안정성을 확보하고 계산 효율성을 극대화했습니다. * **프라이버시 회계(Privacy Accounting):** 엄격한 수학적 증명을 통해 $\epsilon=8$, $\delta=10^{-12}$ 수준의 프라이버시 보장을 실현했습니다. ### 성능 평가 및 실전 비교 * **기존 모델 압도:** VaultGemma 1B 모델은 자신보다 훨씬 큰 규모의 DP 모델인 DP-OPT 6.7B보다 MMLU, GSM8K 등 주요 벤치마크에서 월등히 높은 성능을 기록했습니다. * **비 DP 모델과의 경쟁력:** 프라이버시 보호 기술이 적용되었음에도 불구하고, 프라이버시 기능이 없는 표준 GPT-2 모델의 성능을 상회하는 등 실용 가능성을 입증했습니다. * **오픈소스 공개:** 연구 커뮤니티의 발전을 위해 모델 가중치와 기술 보고서를 Hugging Face와 Kaggle에 공개하여 누구나 안전한 AI를 연구할 수 있도록 지원합니다. VaultGemma는 민감한 개인정보나 보안이 중요한 데이터를 다루는 기업 및 연구자들에게 강력한 도구가 될 것입니다. 특히 데이터 암기(Memorization)를 수학적으로 방지해야 하는 환경에서, 이 모델은 프라이버시와 성능이라는 두 마리 토끼를 잡을 수 있는 최적의 출발점을 제공합니다.

google

Speculative cascades — A hybrid approach for smarter, faster LLM inference (새 탭에서 열림)

구글 리서치(Google Research)는 거대 언어 모델(LLM)의 추론 속도를 높이고 비용을 절감하기 위해 '스펙큘레이티브 디코딩(Speculative Decoding)'과 '표준 캐스케이드(Standard Cascades)' 방식을 결합한 **스펙큘레이티브 캐스케이드(Speculative Cascades)** 기법을 제안했습니다. 이 하이브리드 접근 방식은 작은 모델이 생성한 초안이 대형 모델의 결과와 반드시 토큰 단위로 일치하지 않더라도, 품질 면에서 충분히 유효하다면 이를 수용함으로써 불필요한 재계산을 방지합니다. 결과적으로 이 기법은 기존의 두 방식보다 더 나은 비용 대비 품질 효율을 달성하며, 요약, 번역, 코딩 등 다양한 언어 작업에서 성능 향상을 입증했습니다. ### 기존 추론 가속 기법의 병목 현상 * **표준 캐스케이드(Cascades):** 작은 모델이 먼저 답변을 시도하고, 확신이 없을 때만 대형 모델로 작업을 넘기는 '지연 규칙(Deferral Rule)'을 사용합니다. 하지만 이 방식은 순차적(Sequential)으로 진행되기에, 작은 모델이 실패할 경우 대형 모델이 처음부터 다시 계산을 시작해야 하므로 시간 낭비가 발생합니다. * **스펙큘레이티브 디코딩(Speculative Decoding):** 작은 '드래프트' 모델이 토큰 뭉치를 먼저 생성하면 대형 모델이 이를 병렬로 검증합니다. 결과물의 품질은 대형 모델과 동일하게 유지되지만, 작은 모델의 답변이 내용상 훌륭하더라도 대형 모델의 특정 표현 스타일과 토큰 단위로 일치하지 않으면 기각(Rejection)되어 속도 이점이 사라집니다. ### 스펙큘레이티브 캐스케이드의 하이브리드 접근법 * **유연한 수용 기준:** 기존 스펙큘레이티브 디코딩이 엄격한 토큰 일치(또는 확률적 일치)를 요구하는 것과 달리, 스펙큘레이티브 캐스케이드는 드래프트 모델의 출력이 '충분히 좋은지'를 판단하여 수용 여부를 결정합니다. * **병렬 검증과 효율의 결합:** 드래프트 모델이 토큰을 생성하는 동안 대형 모델이 이를 병렬로 검토하여 지연 시간을 줄이면서도, 캐스케이드의 비용 절감 논리를 도입하여 대형 모델이 모든 작업을 독점하지 않게 설계되었습니다. * **지연 병목 해소:** 작은 모델의 결과가 만족스럽지 않을 때만 대형 모델의 자원을 사용함으로써, 표준 캐스케이드에서 발생하던 순차적 대기 시간 문제를 해결하고 전체적인 추론 처리량을 높였습니다. ### 실험 결과 및 성능 입증 * **다양한 모델 및 과제 적용:** 구글의 Gemma와 T5 모델을 활용하여 요약, 번역, 추론, 코딩, 질의응답 등 광범위한 언어 작업에서 테스트를 진행했습니다. * **비용-품질 최적화:** 실험 결과, 스펙큘레이티브 캐스케이드는 기존의 단일 기법들보다 동일 비용 대비 더 높은 품질의 결과물을 생성하거나, 동일 품질 대비 더 빠른 추론 속도를 기록했습니다. * **적응형 응답 생성:** 특히 답변의 스타일이 여러 가지일 수 있는 개방형 작업에서, 대형 모델의 답변과 토큰 단위로 정확히 일치하지 않아도 품질을 유지하며 속도를 획기적으로 개선하는 모습을 보였습니다. LLM 서비스를 운영하는 개발자나 기업은 스펙큘레이티브 캐스케이드를 도입함으로써 고성능 모델의 정확도와 소형 모델의 경제성을 동시에 확보할 수 있습니다. 특히 실시간 응답이 중요하면서도 운영 비용 최적화가 필요한 대규모 사용자 서비스에서 이 기법은 매우 실용적인 해결책이 될 것입니다.

google

Beyond billion-parameter burdens: Unlocking data synthesis with a conditional generator (새 탭에서 열림)

구글 리서치에서 발표한 **CTCL(Data Synthesis with ConTrollability and CLustering)** 프레임워크는 수십억 개의 파라미터를 가진 대규모 언어 모델(LLM) 없이도 고품질의 차분 프라이버시(DP) 합성 데이터를 생성할 수 있는 혁신적인 방법론을 제시합니다. 1억 4천만 개의 파라미터를 가진 경량 모델을 활용함으로써 자원이 제한된 환경에서도 효과적인 데이터 합성을 가능하게 하며, 프라이버시 보존과 데이터 유용성 사이의 균형을 성공적으로 달성했습니다. 이 방식은 기존 LLM 미세 조정 방식보다 비용 효율적이면서도 특정 주제별 분포를 정확하게 재현할 수 있다는 결론을 도출했습니다. ### 기존 합성 데이터 생성의 한계와 CTCL의 등장 * **기존 방식의 문제점:** 차분 프라이버시(DP)를 준수하는 대규모 합성 데이터를 만들려면 일반적으로 수십억 파라미터 규모의 LLM을 미세 조정해야 하므로 막대한 계산 비용이 발생합니다. * **API 기반 방식의 한계:** 최근 제안된 Aug-PE나 Pre-Text 같은 알고리즘은 모델 직접 학습 대신 API를 활용하지만, 수동 프롬프트에 의존도가 높고 프라이빗 정보를 데이터 선택 과정에 효과적으로 반영하지 못하는 단점이 있습니다. * **CTCL의 대안:** CTCL은 경량 모델(140M BART-base)을 사용하면서도, 프라이빗 데이터의 주제 분포를 자동으로 매칭하는 조건부 생성 방식을 채택하여 이러한 제약을 극복합니다. ### 핵심 구성 요소: CTCL-Topic과 CTCL-Generator * **CTCL-Topic (주제 모델):** 위키피디아 데이터를 기반으로 구축된 범용 주제 모델입니다. 약 600만 개의 문서를 1,000개의 클러스터(주제)로 분류하고, 각 주제를 대표하는 10개의 키워드를 추출하여 데이터의 고차원적 테마를 포착합니다. * **CTCL-Generator (조건부 생성기):** 1억 4천만 파라미터 규모의 BART-base 모델을 기반으로 합니다. Gemma-2-2B를 이용해 생성한 4억 3천만 개의 '설명-문서' 쌍으로 사전 학습되어, 특정 키워드나 문서 유형이 주어지면 그에 맞는 내용을 생성하는 강력한 제어 능력을 갖췄습니다. ### 3단계 데이터 합성 프로세스 1. **사전 개발:** 대규모 공개 코퍼스를 사용하여 CTCL-Topic과 CTCL-Generator를 단 한 번 개발합니다. 이 모델들은 이후 다양한 프라이빗 도메인에 범용적으로 적용될 수 있습니다. 2. **프라이빗 도메인 학습:** 프라이빗 데이터 세트의 주제별 분포(히스토그램)를 DP 방식으로 수집합니다. 동시에 프라이빗 문서에서 추출된 주제 키워드를 활용해 CTCL-Generator를 DP 미세 조정하여 해당 도메인의 특성을 학습시킵니다. 3. **합성 데이터 생성:** 수집된 DP 주제 히스토그램의 비율에 맞춰 생성 모델을 샘플링합니다. DP의 '후처리 속성(Post-processing property)' 덕분에, 한 번 학습된 모델로부터 추가적인 프라이버시 비용 소모 없이 무제한으로 합성 데이터를 생성할 수 있습니다. ### 성능 평가 및 실무적 시사점 * **성능 우위:** 다양한 데이터 세트에서 평가한 결과, 특히 강력한 프라이버시 보장(Strong DP) 조건 하에서 기존 베이스라인 모델들을 일관되게 능가하는 성능을 보였습니다. * **확장성 및 효율성:** 수십억 파라미터 모델을 쓰지 않고도 주제별 분포 매칭이 가능하며, Aug-PE 알고리즘 대비 뛰어난 확장성을 입증했습니다. * **실용적 권장:** 자원이 제한된 환경에서 프라이버시를 보호하며 특정 도메인의 텍스트 데이터를 대량으로 생성해야 하는 경우, 무거운 LLM 미세 조정 대신 CTCL과 같은 경량 조건부 생성 프레임워크를 도입하는 것이 비용과 품질 면에서 매우 효율적인 전략이 될 수 있습니다.

google

REGEN: Empowering personalized recommendations with natural language (새 탭에서 열림)

Google Research는 추천 시스템이 단순히 다음 아이템을 예측하는 것을 넘어, 자연어로 사용자와 상호작용하고 추천 이유를 설명할 수 있도록 돕는 새로운 벤치마크 데이터셋 'REGEN(Reviews Enhanced with GEnerative Narratives)'을 공개했습니다. 이 데이터셋은 아마존 상품 리뷰 데이터를 기반으로 Gemini 1.5 Flash를 활용해 합성된 사용자 비평과 개인화된 내러티브를 추가하여 구축되었습니다. 연구 결과, LLM 기반의 모델은 자연어 피드백을 통해 추천의 정확도를 높이는 동시에 사용자 맞춤형 설명을 효과적으로 생성할 수 있음을 입증했습니다. ## REGEN 데이터셋의 구성과 특징 * **기존 데이터의 확장:** 널리 사용되는 아마존 상품 리뷰 데이터셋을 기반으로 하되, 대화형 추천 시스템에 필요한 요소들을 Gemini 1.5 Flash로 합성하여 보완했습니다. * **사용자 비평(Critiques):** "더 많은 저장 용량이 필요해"와 같이 사용자가 현재 추천된 아이템을 수정하거나 선호도를 구체화하는 자연어 피드백 데이터를 포함합니다. * **맥락적 내러티브(Narratives):** 단순한 아이템 노출이 아니라, 구매 이유(Purchase reasons), 제품 홍보(Product endorsements), 사용자 선호도 요약 등을 포함하여 추천의 근거를 풍부하게 제공합니다. ## 추천과 생성을 위한 모델 아키텍처 * **하이브리드 방식 (FLARE + Gemma):** 협업 필터링 기반의 순차적 추천 모델인 FLARE가 아이템을 예측하면, 경량 LLM인 Gemma 2B가 해당 아이템에 대한 설명을 생성하는 이원화된 구조를 테스트했습니다. * **통합 모델 (LUMEN):** 단일 LLM이 비평 이해, 아이템 추천, 내러티브 생성을 모두 수행하는 모델입니다. 어휘집과 임베딩 레이어를 수정하여 아이템 ID와 텍스트 토큰을 하나의 생성 과정에서 처리하도록 설계되었습니다. * **공동 작업 수행:** 모델은 사용자의 과거 이력과 자연어 비평을 동시에 입력받아 적절한 아이템을 추천함과 동시에 그에 걸맞은 자연어 설명을 출력하는 엔드 투 엔드(End-to-End) 학습을 진행합니다. ## 실험 결과 및 성능 향상 * **비평의 효과:** 입력 데이터에 사용자의 자연어 비평을 포함했을 때 추천 성능이 일관되게 향상되었습니다. Office 도메인 데이터 기준, 상위 10개 추천 결과 내에 정답이 포함될 확률(Recall@10)이 0.124에서 0.1402로 크게 개선되었습니다. * **LLM의 다재다능함:** REGEN으로 학습된 모델들은 기존의 전문화된 추천 알고리즘에 필적하는 성능을 보이면서도, 사용자의 요구사항을 반영한 고품질의 개인화된 설명을 생성할 수 있었습니다. 추천 시스템의 미래는 단순히 상품을 나열하는 것이 아니라 사용자와 소통하며 맥락을 이해하는 방향으로 나아가고 있습니다. REGEN 데이터셋은 LLM이 추천 엔진의 핵심 역할을 수행할 수 있음을 보여주며, 개발자들은 이를 활용해 더 설명 가능하고(explainable) 대화에 능숙한 차세대 커머스 AI를 구축할 수 있을 것입니다.

google

Google Research at Google I/O 2025 (새 탭에서 열림)

Google Research는 Google I/O 2025를 통해 수년간의 연구 성과가 실제 서비스와 제품으로 구현되는 과정을 공유하며, AI 기술이 일상과 산업 전반에 미치는 실질적인 영향을 강조했습니다. 이번 발표의 핵심은 의료, 교육, 온디바이스 AI 분야에서 Gemini 모델의 역량을 극대화하고, 모델의 효율성과 다국어 지원 능력을 획기적으로 개선하여 기술 민주화를 실현하는 데 있습니다. **MedGemma와 AMIE를 통한 의료 서비스의 진화** * **MedGemma 출시:** Gemma 3를 기반으로 한 의료 특화 오픈 모델로, 4B 및 27B 텍스트 전용 모델이 공개되었습니다. 방사선 이미지 분석 및 임상 데이터 요약에 최적화된 멀티모달 능력을 갖추고 있습니다. * **성능 및 효율성:** 소형 모델임에도 불구하고 MedQA 벤치마크에서 대형 모델과 대등한 임상 지식 및 추론 성능을 보여주며, 로컬 환경이나 Google Cloud Platform에서 유연하게 구동 가능합니다. * **AMIE의 발전:** 의료 진단 대화를 위한 연구용 AI 에이전트 AMIE에 시각 지능(Vision)이 추가되어, 의료 영상을 함께 해석하며 더욱 정확한 진단을 돕는 멀티모달 추론이 가능해졌습니다. **교육 특화 모델 LearnLM과 Gemini 2.5의 결합** * **Gemini 2.5 통합:** 교육 전문가들과 협업하여 미세 조정된 LearnLM 모델이 Gemini 2.5에 직접 통합되었습니다. 이는 학습 과학 원리를 적용하여 STEM 추론 및 퀴즈 생성 능력을 강화한 결과입니다. * **개인 맞춤형 학습 경험:** 사용자의 수업 노트나 문서를 바탕으로 맞춤형 퀴즈를 생성하고 정오답에 대한 구체적인 피드백을 제공하는 새로운 퀴즈 기능을 선보였습니다. * **글로벌 교육 현장 적용:** 가나의 고등학교 등에서 단문 및 장문 콘텐츠의 자동 평가 시스템을 시범 운영하며, 교육 기술의 확장성을 검증하고 있습니다. **다국어 지원 및 온디바이스 AI를 위한 Gemma의 혁신** * **Gemma 3의 다국어 확장:** 140개 이상의 언어를 지원하여 전 세계 사용자들이 언어 장벽 없이 LLM을 활용할 수 있도록 개선되었습니다. * **온디바이스 최적화 모델 Gemma 3n:** 단 2GB의 RAM에서도 구동 가능한 초경량 모델로, 모바일 기기에서의 대기 시간을 줄이고 에너지 소비 효율을 극대화했습니다. * **평가 지표 도입:** 모델의 교차 언어 지식 전달 능력을 정교하게 측정하기 위한 새로운 벤치마크인 'ECLeKTic'을 도입하여 기술적 신뢰도를 높였습니다. **모델 효율성 및 검색 정확도 향상** * **추론 최적화 기술:** 추측성 디코딩(Speculative decoding)과 캐스케이드(Cascades) 기술을 통해 품질 저하 없이 모델의 응답 속도와 효율성을 업계 표준 수준으로 끌어올렸습니다. * **사실성 강화:** 검색 엔진의 AI 모드 등에 적용되는 모델의 사실적 일관성을 높이기 위해 접지(Grounding) 연구를 지속하며 LLM의 신뢰성을 보장하고 있습니다. 개발자와 연구자들은 HuggingFace나 Vertex AI를 통해 공개된 MedGemma와 Gemma 3n 모델을 즉시 활용해 볼 수 있습니다. 특히 특정 산업군(의료, 교육)에 특화된 애플리케이션을 구축할 때, 성능과 효율성 사이의 균형이 검증된 이번 오픈 모델들을 베이스라인으로 활용하는 것을 추천합니다.

google

Teaching machines the language of biology: Scaling large language models for next-generation single-cell analysis (새 탭에서 열림)

예일 대학교와 구글 리서치는 복잡한 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터를 텍스트 형식으로 변환하여 대규모 언어 모델(LLM)이 해석할 수 있도록 하는 'C2S-Scale(Cell2Sentence-Scale)'을 공개했습니다. 이 기술은 유전자 발현 수준에 따라 유전자 이름을 정렬해 '세포 문장(cell sentence)'을 생성함으로써, 고차원의 생물학적 데이터를 자연어처럼 처리하고 분석할 수 있는 혁신적인 접근법을 제시합니다. 이를 통해 연구자들은 전문적인 코드 없이도 세포의 상태나 약물 반응 등을 일상 언어로 질문하고 답변을 얻을 수 있는 대화형 분석 환경을 갖게 되었습니다. ### 세포 데이터를 문장으로 변환하는 메커니즘 * 단일 세포의 유전자 발현 프로필을 수치 데이터가 아닌, 발현량이 높은 순서대로 유전자 이름을 나열한 '세포 문장'으로 변환합니다. * 유전자 이름, 세포 유형, 실험 메타데이터 등 이미 텍스트로 존재하는 생물학적 정보와 결합하여 LLM이 생물학적 문맥을 자연스럽게 학습하도록 설계되었습니다. * 자연어를 인터페이스로 사용함으로써 복잡한 고차원 데이터를 직관적이고 유연하게 해석할 수 있으며, 기존 LLM 인프라를 그대로 활용할 수 있는 확장성을 확보했습니다. ### C2S-Scale 모델 제품군 및 아키텍처 * 구글의 오픈 모델인 '젬마(Gemma)' 아키텍처를 기반으로 구축되었으며, 실제 전사체 데이터와 생물학적 문헌 등 10억 개 이상의 토큰을 포함한 데이터셋으로 학습되었습니다. * 연구자의 컴퓨팅 자원과 목적에 맞게 선택할 수 있도록 4억 1,000만 개(410M)부터 270억 개(27B)의 매개변수를 가진 다양한 크기의 모델 라인업을 제공합니다. * 모든 모델은 오픈 소스로 공개되어 HuggingFace와 GitHub를 통해 누구나 미세 조정(Fine-tuning)하거나 연구에 즉시 활용할 수 있습니다. ### 자연어를 통한 생물학 데이터 해석 및 성능 * **대화형 질의응답:** "이 T 세포가 항암 치료제에 어떻게 반응할까?"와 같은 질문에 대해 모델이 세포 데이터와 사전 학습된 생물학 지식을 결합하여 자연어로 답변합니다. * **자동 데이터 요약:** 단일 세포의 유형 식별부터 조직 전체의 실험 결과 요약까지, 복잡한 데이터를 생물학적 의미가 담긴 텍스트로 자동 생성하여 연구자의 해석을 돕습니다. * **생물학적 스케일링 법칙:** 일반적인 LLM과 마찬가지로 모델의 크기가 커질수록 세포 유형 주석(Annotation) 및 데이터 생성 능력이 예측 가능한 수준으로 정교해지는 '스케일링 법칙'이 적용됨을 입증했습니다. C2S-Scale은 생물학 데이터를 '언어'의 영역으로 통합함으로써 전문가 위주의 단일 세포 분석 문턱을 크게 낮췄습니다. 생물학 연구자들은 공개된 모델을 활용해 자신의 실험 데이터를 시각화하는 수준을 넘어, 세포와 직접 대화하며 가설을 검증하는 새로운 차원의 연구 워크플로우를 구축해 볼 수 있을 것입니다.

google

Generating synthetic data with differentially private LLM inference (새 탭에서 열림)

구글 리서치는 별도의 미세 조정(Fine-tuning) 과정 없이 기성 대규모 언어 모델(LLM)의 추론만을 활용하여 차분 프라이버시(Differential Privacy, DP)가 보장된 합성 데이터를 생성하는 새로운 접근 방식을 제안했습니다. 이 방법은 여러 개의 민감한 예시를 병렬 프롬프트로 입력하고 그 응답을 프라이버시를 보호하는 방식으로 집계하여, 기존 방식보다 훨씬 많은 양의 고품질 데이터를 생성할 수 있게 합니다. 결과적으로 복잡한 DP 학습 파이프라인 없이도 민감한 데이터를 안전하게 대체할 수 있는 고성능 합성 데이터셋 구축이 가능해졌습니다. ### 병렬 프롬프팅과 토큰 집계 메커니즘 * 민감한 데이터 하나당 하나의 프롬프트를 할당하여 여러 개의 독립적인 프롬프트를 LLM에 동시에 입력합니다. * 각 프롬프트에서 도출된 다음 토큰 예측(Next-token prediction) 결과들을 집계하고, 특정 개인의 데이터가 결과에 과도한 영향을 미치지 않도록 DP 기법을 적용해 토큰을 최종 선택합니다. * 선택된 토큰을 모든 프롬프트 끝에 다시 추가하고 다음 토큰을 예측하는 과정을 반복함으로써, 개별 데이터의 세부 정보는 가리면서도 데이터셋 전체의 통계적 특성은 유지하는 합성 텍스트를 생성합니다. ### 지수 메커니즘을 통한 프라이버시 예산 최적화 * LLM의 표준 생성 과정인 소프트맥스 샘플링(Softmax sampling)과 DP의 핵심 기법인 지수 메커니즘(Exponential mechanism) 사이의 수학적 연결 고리를 활용합니다. * 다음 토큰을 샘플링할 때 발생하는 고유한 무작위성을 프라이버시 보호를 위한 노이즈로 활용하여, 제한된 프라이버시 예산 안에서도 출력 데이터의 양을 극대화했습니다. * 이를 통해 기존 연구들이 10개 미만의 데이터 포인트 생성에 그쳤던 것과 달리, 수천 개의 고품질 합성 데이터를 성공적으로 생성하며 실무 적용 가능성을 입증했습니다. ### 연산 효율성 개선 및 공개 드래프터 도입 * 기존 방식은 매 토큰 생성 시마다 새로운 데이터 배치를 사용해야 했으나, 이번 연구에서는 동일한 문맥을 유지하며 여러 토큰을 생성할 수 있는 새로운 프라이버시 분석 기법을 도입했습니다. * 이를 통해 KV 캐싱(KV caching)과 같은 표준적인 추론 최적화 기술을 그대로 적용할 수 있어 연산 속도와 효율성을 비약적으로 높였습니다. * 또한, 민감한 데이터가 아닌 공개 데이터에만 기반해 토큰을 제안하는 '공개 드래프터(Public Drafter)' 모델과 희소 벡터 기법(Sparse Vector Technique)을 결합했습니다. 문장 구조나 서식 등 일반적인 정보 생성에는 프라이버시 예산을 소모하지 않도록 설계하여 효율성을 더욱 강화했습니다. 이 방식은 민감한 개인 정보를 다루는 조직이 복잡한 DP 모델 학습 없이도 안전한 합성 데이터를 생성하여 데이터 과학자나 외부 협업 팀에 제공할 수 있는 실무적인 인터페이스 역할을 할 수 있습니다. 특히 데이터 형식이 정형화된 작업에서 높은 성능을 보이므로, 보안이 중요한 환경에서의 데이터 활용도를 높이는 데 적극 권장됩니다.