Google Research / llm

37 개의 포스트

google

Google Research 2025: Bolder breakthroughs, bigger impact (새 탭에서 열림)

2025년 구글 리서치는 기초 연구가 실제 제품과 사회적 가치로 연결되는 '혁신의 마법 주기(Magic Cycle)'를 가속화하며 생성형 AI, 과학적 발견, 양자 컴퓨팅 분야에서 기념비적인 성과를 거두었습니다. 제미나이 3(Gemini 3)로 대표되는 모델의 효율성과 사실성 개선은 물론, 스스로 도구를 사용하는 에이전트 모델과 질병 치료를 위한 바이오 AI 기술을 통해 기술적 한계를 한 단계 더 확장했습니다. 이러한 연구 결과는 단순한 기술 진보를 넘어 기후 변화 대응과 교육 등 인류 공통의 과제를 해결하는 데 실질적인 기여를 하고 있습니다. **생성형 모델의 효율성 및 신뢰성 고도화** * **추론 효율성 최적화:** '투기적 디코딩(Speculative decoding)'과 가상 머신 작업 수명을 예측하는 'LAVA' 알고리즘을 도입하여 대규모 클라우드 데이터 센터의 리소스 효율성과 비용 절감을 실현했습니다. * **사실성(Factuality) 강화:** 2021년부터 이어진 LLM 사실성 연구를 집대성하여 제미나이 3를 역대 가장 사실적인 모델로 구축했으며, FACTS 벤치마크 등을 통해 모델의 정보 근거 제시 능력을 입증했습니다. * **다국어 및 다문화 대응:** 오픈 모델인 '젬마(Gemma)'를 140개 이상의 언어로 확장하고, 문화적 맥락을 이해하는 'TUNA' 분류 체계와 'Amplify' 이니셔티브를 통해 글로벌 사용자에게 최적화된 AI 경험을 제공합니다. **생성형 UI와 지능형 에이전트의 등장** * **인터랙티브 인터페이스:** 사용자의 프롬프트에 따라 웹페이지, 게임, 도구 등의 시각적 인터페이스를 실시간으로 생성하는 '생성형 UI'를 제미나이 3에 도입했습니다. * **에이전트 기능(Agentic AI):** 단순 응답을 넘어 복잡한 작업을 수행하는 '프로젝트 자비스(Project Jarvis)'와 웹 브라우징 에이전트를 통해 사용자의 일상 업무를 자동화하는 능력을 선보였습니다. * **코드 및 추론 능력:** 고도화된 추론 아키텍처를 통해 소프트웨어 엔지니어링 성능을 비약적으로 향상시켰으며, 이는 구글 내부 코드의 25% 이상이 AI에 의해 생성되는 결과로 이어졌습니다. **과학적 혁신과 헬스케어의 진보** * **생물학적 발견:** 단백질 구조 예측을 넘어 분자 상호작용을 모델링하는 'AlphaFold 3'와 새로운 단백질을 설계하는 'AlphaProteo'를 통해 신약 개발과 질병 이해의 속도를 높였습니다. * **의료 특화 모델:** 'Med-Gemini'와 같은 의료 전용 모델을 개발하여 흉부 엑스레이 분석, 유전체 데이터 해석 등 전문적인 의료 진단 보조 도구로서의 가능성을 확인했습니다. * **뇌 과학 연구:** 하버드 대학과의 협력을 통해 인간 대뇌 피질의 시냅스 수준 지도를 제작하는 등 신경과학 분야에서도 전례 없는 성과를 냈습니다. **양자 컴퓨팅과 지구 과학을 통한 미래 대비** * **양자 우위와 실용화:** 양자 오류 정정 기술의 혁신을 통해 실제 문제 해결에 활용 가능한 양자 컴퓨팅 시대를 앞당겼습니다. * **기후 및 환경 대응:** 산불을 실시간으로 추적하는 'FireSat' 위성 네트워크와 비행운(Contrails) 감소 연구 등을 통해 기후 위기 대응을 위한 구체적인 AI 솔루션을 제시했습니다. * **책임감 있는 AI:** 콘텐츠의 출처를 밝히는 'SynthID' 워터마킹 기술을 텍스트와 비디오로 확대 적용하여 AI 생성 콘텐츠의 투명성과 안전성을 강화했습니다. 구글의 2025년 성과는 AI가 단순한 보조 도구를 넘어 과학 연구의 속도를 높이고 복잡한 사회 문제를 해결하는 강력한 에이전트로 진화했음을 보여줍니다. 기업과 연구자는 이제 단순한 챗봇 구현을 넘어, 특정 도메인에 특화된 에이전트 모델과 생성형 UI를 활용한 새로운 사용자 경험 설계에 집중해야 할 시점입니다.

google

Gemini provides automated feedback for theoretical computer scientists at STOC 2026 (새 탭에서 열림)

Google Research는 이론 컴퓨터 과학 분야의 최고 권위 학회인 STOC 2026 제출 논문을 대상으로, Gemini를 활용한 자동 피드백 도구를 실험적으로 도입했습니다. 이 도구는 복잡한 논리 구조와 수식을 검증하여 인간 연구자가 수개월 동안 발견하지 못한 치명적인 오류를 24시간 이내에 찾아내는 성과를 거두었습니다. 결과적으로 참여 저자의 97%가 피드백이 유용했다고 답하며, AI가 전문적인 연구 워크플로우를 보조하는 강력한 협업 도구가 될 수 있음을 증명했습니다. **추론 확장 기술을 통한 수학적 엄밀성 확보** * Gemini 2.5 Deep Think의 고급 버전에 적용된 '추론 확장(Inference Scaling)' 메서드를 활용하여 단순한 선형적 사고를 넘어 여러 해결 경로를 동시에 탐색합니다. * 다양한 추론 및 평가 흔적(traces)을 결합함으로써 LLM 특유의 환각 현상을 줄이고, 논문의 가장 핵심적인 논리적 결함에 집중할 수 있도록 최적화되었습니다. **구조화된 피드백 제공 방식** * 저자들에게는 논문의 기여도 요약, 주요 정리(Theorem) 및 보조 정리(Lemma)에 대한 구체적인 오류 지적 및 개선 제안, 오타 및 단순 교정 사항이 포함된 체계적인 리포트가 제공됩니다. * 단순한 문구 수정을 넘어 변수 이름의 불일치, 부등식의 잘못된 적용, 증명 과정에서의 논리적 공백 등 기술적인 디테일을 심층 분석합니다. **실제 연구 현장에서의 성과와 사용자 반응** * 실험에 참여한 논문의 80% 이상이 AI 리뷰를 선택했으며, 저자들은 수개월간 발견하지 못했던 '논문 전체를 부정하게 만드는 치명적인 버그'를 AI가 찾아냈다는 점에 주목했습니다. * 설문 결과 참여자의 97%가 재사용 의사를 밝혔으며, 81%는 논문의 명확성과 가독성이 크게 향상되었다고 평가했습니다. * 인간 리뷰어와 달리 중립적인 톤으로 신속하게(2일 이내) 피드백을 제공한다는 점이 큰 장점으로 꼽혔습니다. **전문가와 AI의 협업 모델 및 한계점** * 모델이 복잡한 표기법이나 그림을 해석하는 과정에서 간혹 환각을 일으키기도 하지만, 해당 분야의 전문가인 저자들은 AI의 출력물에서 '노이즈'를 걸러내고 유익한 통찰만을 선택적으로 수용하는 능력을 보여주었습니다. * 이는 AI가 인간을 대체하는 것이 아니라, 전문가의 판단을 돕고 검증의 시작점 역할을 수행하는 '보조적 파트너'로서 최적화되어 있음을 시사합니다. **교육적 가치와 미래 전망** * 설문에 응한 연구자의 75%는 이 도구가 학생들에게 수학적 엄밀성과 논문 작성법을 교육하는 데 큰 가치가 있다고 응답했습니다. * 연구 커뮤니티의 88%는 연구 프로세스 전반에 걸쳐 이러한 도구를 지속적으로 사용하기를 희망하고 있으며, Google은 향후 동료 검토(Peer Review) 과정을 대체하는 것이 아닌, 이를 보완하고 강화하는 방향으로 기술을 발전시킬 계획입니다. 연구자들은 이 도구를 단순한 자동 검토기가 아닌, 연구 초기 단계부터 논리의 빈틈을 메워주는 '상시 접속 가능한 동료 연구자'로 활용할 것을 권장합니다. 특히 복잡한 증명이 포함된 논문을 투고하기 전, 예상치 못한 논리적 오류를 사전에 필터링하는 용도로 매우 유용합니다.

google

A differentially private framework for gaining insights into AI chatbot use (새 탭에서 열림)

Google Research가 발표한 'Urania' 프레임워크는 차분 프라이버시(Differential Privacy, DP)를 활용하여 사용자 대화의 비밀을 엄격하게 보호하면서도 AI 챗봇 사용 패턴에 대한 고차원적인 인사이트를 도출합니다. 기존의 휴리스틱한 개인정보 제거 방식과 달리, 이 모델은 수학적으로 증명된 프라이버시 보장을 제공하여 특정 개인의 데이터가 분석 결과에 노출되는 것을 원천적으로 차단합니다. 이를 통해 플랫폼 운영자는 프라이버시 침해 우려 없이 서비스 개선 및 안전 정책 준수를 위한 대규모 언어 모델(LLM) 사용 트렌드를 분석할 수 있습니다. **기존 방식의 한계와 수학적 프라이버시의 도입** * 기존의 CLIO와 같은 프레임워크는 LLM이 대화에서 개인식별정보(PII)를 스스로 제거하도록 유도하는 휴리스틱 방식에 의존하여, 모델 진화에 따른 보안 유지나 엄격한 감사가 어려웠습니다. * Urania는 차분 프라이버시의 '사후 처리(Post-processing)'와 '합성(Composition)' 속성을 활용하여, 파이프라인의 각 단계에서 발생하는 프라이버시 손실을 수학적 예산(ε) 내에서 관리합니다. * 이러한 접근법은 프롬프트 주입 공격(Prompt Injection)과 같은 위협으로부터 자유로우며, LLM이 원본 대화 내용을 직접 보지 못하게 설계되어 보안성을 극대화합니다. **3단계 데이터 보호 파이프라인 구성** * **DP 클러스터링**: 대화 내용을 수치적 임베딩으로 변환한 뒤, 특정 대화가 클러스터 중심에 과도한 영향을 미치지 않도록 제한하는 알고리즘을 사용하여 유사한 대화들을 그룹화합니다. * **DP 키워드 추출**: 클러스터 내에서 빈번하게 등장하는 키워드를 집계할 때 노이즈를 추가하는 히스토그램 메커니즘을 적용하여, 여러 사용자에게 공통된 키워드만 추출하고 고유한 민감 정보는 걸러냅니다. * LLM 가이드 선택: LLM이 대화별로 상위 5개 키워드를 생성하게 함. * DP TF-IDF: 단어 빈도와 문서 역빈도를 계산하여 가중치를 부여하는 전통적 방식의 DP 버전. * 사전 정의 목록 활용: 공개 데이터를 통해 구축된 키워드 후보군 중에서 LLM이 적합한 항목을 선택하게 함. * **LLM 기반 요약**: 요약 단계의 LLM은 원본 대화가 아닌 익명화된 '키워드 리스트'만을 입력받아 최종 인사이트를 생성하며, 이는 프라이버시 보존 결과물에 대한 안전한 사후 처리에 해당합니다. **프라이버시와 분석 유용성의 균형** * 성능 평가 결과, 프라이버시 보호 강도(낮은 ε 값)가 높을수록 요약의 구체성은 다소 하락하는 트레이드오프 관계가 관찰되었습니다. * 그럼에도 불구하고 Urania는 단순한 비공개 방식(Simple-CLIO)과 비교했을 때, 수학적 안전성을 담보하면서도 실무에 적용 가능한 수준의 고차원적 사용 패턴 요약을 제공함을 입증했습니다. * 이 프레임워크는 데이터 분석의 품질을 유지하면서도 사용자의 신뢰를 보장해야 하는 기술 기업들에게 표준화된 개인정보 보호 분석 가이드라인을 제시합니다. 조직에서 대규모 챗봇 데이터를 분석해야 한다면, 단순히 LLM의 필터링 능력에 의존하기보다 Urania와 같이 수학적으로 증명된 차분 프라이버시 파이프라인을 구축하는 것이 장기적인 보안 및 규제 대응 측면에서 권장됩니다.

google

Generative UI: A rich, custom, visual interactive user experience for any prompt (새 탭에서 열림)

구글 리서치가 발표한 '제너레이티브 UI(Generative UI)'는 AI 모델이 단순한 텍스트 답변을 넘어 웹페이지, 게임, 도구, 시뮬레이션 등 완전한 사용자 경험(UX)을 실시간으로 생성하는 새로운 기술 패러다임입니다. 이 기술은 사용자의 질문이나 지시사항의 의도를 파악하여 고정된 형식이 아닌, 목적에 최적화된 맞춤형 인터페이스를 즉석에서 설계하고 코딩합니다. 현재 제미나이(Gemini) 앱과 구글 검색의 AI 모드에 통합되어 정적 인터페이스를 동적이고 상호작용 가능한 디지털 환경으로 변모시키고 있습니다. **정적 인터페이스를 넘어서는 새로운 패러다임** * 사용자가 카탈로그에서 기존 앱을 선택하는 대신, AI가 사용자의 니즈에 맞춰 동적으로 인터페이스를 생성하여 제공합니다. * 단일 단어부터 상세한 지침까지 모든 형태의 프롬프트에 대응하며, 단순한 정보 전달을 넘어 학습, 놀이, 탐색이 가능한 상호작용 환경을 구축합니다. * 사용자 평가 결과, 생성 속도를 제외한 품질 측면에서 일반적인 LLM의 텍스트 출력보다 제너레이티브 UI에 대한 선호도가 압도적으로 높게 나타났습니다. **실시간 제품 통합 및 활용 사례** * **제미나이 앱(Dynamic View):** 사용자의 대상층(예: 5세 아이 vs 성인)에 따라 콘텐츠와 기능을 다르게 설계하며, 패션 조언이나 이벤트 계획 등 실질적인 과업 수행을 돕습니다. * **구글 검색(AI Mode):** 제미나이 3의 멀티모달 이해 능력과 에이전트 코딩 역량을 활용하여 복잡한 과학적 시뮬레이션(예: RNA 중합효소 작용 기전) 등을 즉석에서 시각화합니다. * **맞춤형 도구 생성:** 소셜 미디어 포스트 갤러리 제작부터 수학 교육용 게임까지, 프롬프트의 의도에 따라 완전히 고유한 레이아웃과 기능을 갖춘 도구를 생성합니다. **제너레이티브 UI의 기술적 구현 원리** * **제미나이 3 Pro 기반:** 구글의 최신 모델을 핵심 엔진으로 사용하며 세 가지 주요 구성 요소를 추가하여 완성도를 높였습니다. * **도구 액세스(Tool Access):** 서버를 통해 이미지 생성 및 웹 검색 도구에 접근하며, 이를 통해 생성된 결과물을 브라우저에 직접 전송하여 효율성을 극대화합니다. * **정교한 시스템 지침:** 목표 설정, 계획 수립, 기술 사양 및 오류 방지 팁이 포함된 상세한 가이드를 통해 모델이 기능적인 UI를 설계하도록 유도합니다. * **사후 처리(Post-processing):** 모델이 출력한 결과물을 사후 처리 프로세스에 통과시켜 흔히 발생하는 기술적 오류를 수정하고 안정성을 확보합니다. 제너레이티브 UI는 소프트웨어가 사용자의 언어만큼이나 유연하고 적응력 있게 변화하는 미래를 보여줍니다. 구글 검색의 AI 모드나 제미나이 앱의 실험적 기능들을 통해, 정해진 틀에 갇히지 않은 진정한 개인화된 인터페이스를 직접 경험해 보시길 권장합니다.

google

DS-STAR: A state-of-the-art versatile data science agent (새 탭에서 열림)

DS-STAR는 통계 분석부터 시각화, 데이터 가공에 이르는 방대한 작업을 자동화하는 최첨단 데이터 과학 에이전트로, 특히 구조화되지 않은 다양한 형식의 데이터를 처리하는 데 탁월한 성능을 보입니다. 이 에이전트는 데이터 파일의 맥락을 자동으로 추출하고, 생성된 계획을 검증하며, 피드백에 따라 계획을 반복적으로 수정하는 세 가지 핵심 혁신을 통해 기존 모델의 한계를 극복했습니다. 결과적으로 DABStep을 포함한 주요 데이터 과학 벤치마크에서 기존의 최첨단 모델들을 제치고 1위를 차지하며 그 실효성을 입증했습니다. **다양한 데이터 형식의 자동 분석 및 맥락 추출** * 기존 데이터 과학 에이전트들이 CSV와 같은 정형 데이터에 의존했던 것과 달리, DS-STAR는 JSON, 비구조화 텍스트, 마크다운 등 현실 세계의 다양한 데이터 형식을 처리할 수 있습니다. * 워크플로의 첫 단계에서 디렉토리 내의 모든 파일을 자동으로 조사하여 데이터의 구조와 내용을 텍스트 요약 형태로 추출합니다. * 이 요약 정보는 에이전트가 당면한 과제를 해결하는 데 필요한 필수적인 맥락 데이터로 활용됩니다. **반복적 계획 수립 및 검증 프레임워크** * DS-STAR는 계획(Planner), 구현(Coder), 검증(Verifier), 라우팅(Router) 단계로 구성된 반복 루프를 통해 작동합니다. * LLM 기반의 검증 에이전트(Verifier)가 각 단계에서 수립된 계획의 충분성을 평가하며, 만약 미흡하다고 판단될 경우 라우터(Router)가 단계를 수정하거나 추가하도록 유도합니다. * 이는 전문가가 구글 코랩(Google Colab)과 같은 도구를 사용하여 중간 결과를 확인하며 순차적으로 분석을 진행하는 방식을 모방한 것으로, 최대 10회까지 반복 정제 과정을 거칩니다. **벤치마크 성능 및 실전 데이터 대응 능력** * DABStep, KramaBench, DA-Code와 같은 주요 벤치마크 평가에서 AutoGen 및 DA-Agent와 같은 기존 모델들을 일관되게 압도했습니다. * 특히 DABStep 벤치마크에서는 정확도를 기존 41.0%에서 45.2%로 끌어올리며 공공 리더보드 1위를 기록했습니다. * 단일 파일 작업(Easy task)뿐만 아니라 여러 이기종 데이터 소스를 결합해야 하는 복잡한 작업(Hard task)에서 경쟁 모델 대비 압도적인 성능 우위를 보였습니다. DS-STAR는 정형 데이터에 국한되지 않고 실제 비즈니스 현장의 파편화된 데이터를 통합 분석해야 하는 환경에서 매우 유용한 도구가 될 수 있습니다. 복잡한 데이터 과학 워크플로를 자동화하고자 하는 조직은 DS-STAR의 순차적 계획 수립 및 자기 검증 메커니즘을 도입함으로써 분석의 정확도와 신뢰성을 획기적으로 높일 수 있을 것입니다.

google

Accelerating the magic cycle of research breakthroughs and real-world applications (새 탭에서 열림)

구글 리서치는 강력한 AI 모델과 에이전트 도구를 통해 기초 과학 연구가 실제 서비스로 연결되고, 이것이 다시 새로운 연구 동력으로 이어지는 '연구의 마법 사이클(Magic Cycle of Research)'을 가속화하고 있습니다. 특히 지학, 유전학, 양자 컴퓨팅 분야에서 거둔 최근의 성과들은 AI가 복잡한 데이터를 이해하고 추론하는 단계를 넘어 인류가 직면한 거대한 과제들을 해결하는 핵심 도구로 진화했음을 보여줍니다. 이러한 기술적 진보는 오픈 플랫폼과 협력을 통해 전 세계 학계와 산업계로 확산되며 실질적인 사회적 영향력을 창출하고 있습니다. ### Google Earth AI: 거대 언어 모델 기반의 지리공간 추론 * 홍수, 산불, 대기 질 등 다양한 지리공간 AI 모델을 통합하여 지구 전체의 변화를 전례 없는 수준으로 파악할 수 있는 인프라를 구축했습니다. * '지리공간 추론 에이전트(Geospatial Reasoning Agent)'를 도입하여, 전문가가 아니더라도 자연어를 통해 복잡한 지리 데이터를 분석하고 공급망 관리나 위기 대응에 필요한 통찰을 얻을 수 있게 했습니다. * 하천 홍수 예측 모델의 범위를 전 세계 150개국, 20억 명 이상의 인구 거주 지역으로 대폭 확장하여 재난 대비 능력을 강화했습니다. * 새로운 원격 감지 파운데이션 모델과 인구 역학 모델을 공개하고, 구글 어스에 제미나이(Gemini) 기능을 탑재하여 위성 이미지 내 객체 검색 성능을 높였습니다. ### DeepSomatic 및 유전학 연구: 정밀 의료를 통한 암 정복 * 네이처 바이오테크놀로지에 발표된 'DeepSomatic'은 종양 내에서 발생하는 미세한 체세포 변이(Somatic mutations)를 정확하게 식별하여 맞춤형 암 치료를 지원합니다. * 지난 10년간의 유전학 연구 노하우를 결합하여 인간 및 비인간 게놈 지도를 정교하게 매핑하고, 질병의 근본 원인을 파악하는 데 기여하고 있습니다. * 'Cell2Sentence' 기술을 통해 단일 세포 데이터를 언어 형태로 변환함으로써, 거대 언어 모델(LLM)이 생물학적 데이터를 학습하고 질병의 메커니즘을 추론할 수 있는 환경을 조성했습니다. ### 양자 에코(Quantum Echoes): 양자 시스템을 활용한 물리 법칙 시뮬레이션 * 양자 프로세서를 단순한 계산기가 아닌, 복잡한 물리 현상을 관찰하고 시뮬레이션하는 강력한 도구로 활용하고 있습니다. * '양자 에코' 기법을 통해 양자 시스템 내에서 정보가 어떻게 확산되고 소멸되는지(Information Scrambling)를 정밀하게 측정하는 데 성공했습니다. * 이러한 성과는 양자 컴퓨팅의 성능을 검증하는 벤치마크로 활용될 뿐만 아니라, 기존 고전 컴퓨터로는 불가능했던 물리적 난제들을 해결하는 가교 역할을 합니다. AI는 이제 단순한 소프트웨어 기술을 넘어 과학적 발견의 속도를 기하급수적으로 높이는 '가속기'가 되었습니다. 구글이 공개한 DeepSomatic과 같은 도구들과 지구 환경 모델들을 적극 활용한다면, 의료 및 환경 분야의 복잡한 문제들을 해결하는 데 있어 기술적 진입 장벽을 낮추고 혁신적인 솔루션을 빠르게 도출할 수 있을 것입니다.

google

Toward provably private insights into AI use (새 탭에서 열림)

구글 리서치는 생성형 AI 서비스의 사용 패턴을 분석하면서도 사용자 프라이버시를 수학적으로 보장할 수 있는 '증명 가능한 개인정보 보호 인사이트(PPI)' 시스템을 공개했습니다. 이 시스템은 신뢰 실행 환경(TEE), 차분 프라이버시(DP), 그리고 대규모 언어 모델(LLM)을 결합하여 비정형 데이터를 안전하게 분석하는 환경을 구축했습니다. 이를 통해 개발자는 원본 데이터에 접근하지 않고도 AI 도구의 활용 사례와 개선점을 파악할 수 있으며, 모든 처리 과정은 오픈 소스로 공개되어 외부 검증이 가능합니다. **증명 가능한 개인정보 보호 인사이트(PPI)의 구동 원리** * **기기 내 데이터 보호:** 사용자 기기에서 분석할 데이터를 결정한 후 암호화하여 전송하며, 이 데이터는 서버의 TEE 내에서만 복호화될 수 있습니다. * **기밀 연합 분석(CFA) 활용:** Gboard 등에 적용되었던 기술을 발전시켜, 데이터 처리 단계를 기기가 사전에 승인한 로직으로만 제한하고 인간의 개입을 원천 차단합니다. * **데이터 전문가 LLM:** TEE 내부에 배치된 Gemma 3 모델이 "사용자가 어떤 주제를 논의 중인가?"와 같은 특정 질문에 답하는 방식으로 비정형 데이터를 정형화된 요약 정보로 변환합니다. **차분 프라이버시를 통한 익명성 보장** * **통계적 노이즈 추가:** LLM이 추출한 범주형 답변들을 집계할 때 차분 프라이버시 알고리즘을 적용하여 히스토그램을 생성합니다. * **개인 식별 방지:** 특정 개인의 데이터가 전체 통계 결과에 유의미한 영향을 미치지 않도록 설계되어, 분석가가 악의적인 프롬프트를 사용하더라도 개별 사용자를 식별할 수 없습니다. * **프롬프트 유연성:** DP 보증은 집계 알고리즘 단계에서 이루어지므로, 분석가는 프라이버시 침해 걱정 없이 LLM의 프롬프트를 자유롭게 변경하며 다양한 인사이트를 얻을 수 있습니다. **투명성 및 외부 검증 가능성** * **전 과정 오픈 소스화:** 개인정보 보호 집계 알고리즘부터 TEE 스택까지 모든 요소를 'Google Parfait' 프로젝트를 통해 오픈 소스로 공개했습니다. * **재현 가능한 빌드:** 외부 감사자가 공개된 코드와 실제 서버에서 실행 중인 바이너리가 일치하는지 확인할 수 있도록 재현 가능한 빌드 시스템을 지원합니다. * **실제 적용 사례:** Pixel 기기의 녹음기(Recorder) 앱 분석에 이 기술을 적용하여, 오픈 소스 Gemma 모델이 사용자의 녹음 데이터 요약 기능을 어떻게 활용하는지 안전하게 파악하고 있습니다. 생성형 AI의 성능 개선을 위해 실사용 데이터 분석이 필수적인 상황에서, PPI 시스템은 기술적 신뢰를 바탕으로 한 프라이버시 보호의 새로운 기준을 제시합니다. 개발자들은 구글이 공개한 기술 스택을 활용해 데이터 활용의 투명성을 높이고, 사용자의 신뢰를 얻으면서도 정교한 서비스 개선 인사이트를 도출할 수 있을 것입니다.

google

A picture's worth a thousand (private) words: Hierarchical generation of coherent synthetic photo albums (새 탭에서 열림)

구글 리서치(Google Research)는 차분 프라이버시(Differential Privacy, DP) 기술을 적용하여 데이터의 프라이버시를 완벽히 보호하면서도, 사진 앨범과 같이 복잡한 구조를 가진 합성 데이터를 생성하는 새로운 방법론을 제시했습니다. 이 방식은 이미지를 직접 생성하는 대신 중간 단계로 '텍스트' 표현을 활용하고 이를 계층적으로 구성함으로써, 개별 사진 간의 주제적 일관성을 유지하는 동시에 연산 효율성까지 확보했습니다. 결과적으로 조직은 복잡한 분석 도구마다 프라이버시 기술을 개별 적용할 필요 없이, 안전하게 생성된 합성 앨범 데이터셋만으로도 고도화된 모델 학습과 분석을 수행할 수 있게 됩니다. ### 중간 텍스트 표현을 활용한 프라이버시 강화 기존의 합성 데이터 생성 방식이 단일 이미지나 짧은 텍스트에 치중했던 것과 달리, 본 연구는 이미지를 텍스트로 변환하는 과정을 핵심 기제로 활용합니다. * **손실 압축을 통한 프라이버시 증진:** 이미지를 상세한 텍스트 캡션으로 설명하는 과정은 본질적으로 정보의 일부를 생략하는 '손실 연산'이며, 이는 원본 데이터의 미세한 고유 정보를 보호하는 자연스러운 방어막 역할을 합니다. * **LLM의 강점 활용:** 거대언어모델(LLM)의 뛰어난 텍스트 생성 및 요약 능력을 활용하여, 원본 이미지의 핵심적인 의미 정보(Semantic information)를 효과적으로 포착합니다. * **리소스 최적화:** 이미지 생성은 비용이 많이 들지만 텍스트 생성은 상대적으로 저렴합니다. 텍스트 단계에서 먼저 콘텐츠를 필터링하고 선별함으로써, 불필요한 이미지 생성에 소요되는 연산 자원을 절약할 수 있습니다. ### 계층적 구조를 통한 앨범의 일관성 유지 사진 앨범은 여러 장의 사진이 하나의 주제나 캐릭터를 공유해야 하므로 단순한 개별 이미지 생성보다 난이도가 높습니다. 연구팀은 이를 해결하기 위해 계층적 생성 전략을 채택했습니다. * **2단계 모델 구조:** 앨범 전체의 요약을 생성하는 모델과, 이 요약을 바탕으로 개별 사진의 상세 캡션을 생성하는 모델을 분리하여 학습시킵니다. * **문맥적 일관성 확보:** 모든 개별 사진 캡션이 동일한 '앨범 요약'을 문맥(Context)으로 공유하기 때문에, 생성된 결과물들이 서로 조화를 이루며 하나의 일관된 스토리를 형성하게 됩니다. * **연산 효율성 증대:** 트레이닝 비용은 컨텍스트 길이에 따라 제곱으로 증가합니다. 하나의 긴 컨텍스트를 처리하는 대신 짧은 컨텍스트를 가진 두 개의 모델을 학습시킴으로써 전체적인 연산 비용을 대폭 낮췄습니다. ### 프라이버시가 보장된 학습 알고리즘 합성 데이터가 원본 사용자의 고유한 정보를 유출하지 않도록 엄격한 수학적 증명을 기반으로 하는 학습 기술을 적용했습니다. * **DP-SGD 적용:** DP-SGD(Differentially Private Stochastic Gradient Descent) 알고리즘을 사용하여 모델을 미세 조정(Fine-tuning)함으로써, 생성된 데이터셋이 실제 데이터의 공통적인 패턴은 학습하되 특정 개인의 세부 사항은 포함하지 않도록 보장합니다. * **안전한 데이터 대체제:** 이렇게 생성된 합성 데이터는 프라이버시 위험이 제거된 상태이므로, 데이터 과학자들은 별도의 복잡한 보안 절차 없이 표준적인 분석 기법을 즉시 적용할 수 있습니다. 이 방법론은 단순히 사진 앨범에 국한되지 않고 비디오나 복합 문서와 같이 구조화된 멀티모달 데이터를 안전하게 생성하는 데 광범위하게 응용될 수 있습니다. 고품질의 데이터 확보가 어렵거나 프라이버시 규제가 엄격한 환경에서, 이와 같은 계층적 합성 데이터 생성 방식은 안전하고 효율적인 대안이 될 것입니다.

google

AI as a research partner: Advancing theoretical computer science with AlphaEvolve (새 탭에서 열림)

Google DeepMind는 LLM 기반 코딩 에이전트인 AlphaEvolve를 활용해 복잡도 이론(Complexity Theory)의 난제를 해결하고 새로운 수학적 구조를 발견하는 성과를 거두었습니다. 이 연구는 AI가 단순히 문제를 푸는 수준을 넘어, '리프팅(Lifting)' 기법을 통해 유한한 구조를 최적화함으로써 보편적인 수학적 정리를 증명하는 강력한 연구 파트너가 될 수 있음을 보여줍니다. 결과적으로 MAX-4-CUT 문제의 근사 난이도와 무작위 그래프 특성 인증 분야에서 기존 기록을 경신하며 이론 전산학의 지평을 넓혔습니다. ### AlphaEvolve의 반복적 진화 메커니즘 * AlphaEvolve는 Gemini와 같은 LLM을 기반으로 코드를 반복적으로 진화시키는 피드백 루프 시스템입니다. * 초기 코드 조각(Population)에서 시작하여 생성된 구조의 성능을 평가하고, 가장 우수한 코드를 LLM이 변형(Morph)하여 더 나은 솔루션을 찾아가는 과정을 반복합니다. * 수학 및 이론 전산학에서 요구되는 절대적인 정확성을 보장하기 위해, AI가 생성한 모든 수학적 구조는 인간의 개입 없이 컴퓨터 프로그램에 의해 자동으로 검증되도록 설계되었습니다. ### '리프팅(Lifting)'을 통한 유한 구조의 보편적 증명 확장 * AI는 특정 사례(유한한 구조)를 찾는 데 능숙하지만, 전산학 정리는 모든 문제 크기($\forall n$)에 대해 성립해야 한다는 간극이 존재합니다. * 연구진은 전체 증명 프레임워크 내에서 특정 부분(유한한 구조)만 AI로 최적화하고, 이를 다시 전체 증명에 결합하여 보편적인 결과로 확장하는 '리프팅' 기법을 도입했습니다. * 특히 기존에 연구자들이 수작업으로 설계하던 복잡한 '가젯 리덕션(Gadget reduction)'을 AlphaEvolve가 수행하게 함으로써, 인간이 발견하기 어려운 정교하고 효율적인 구조를 도출해냈습니다. ### 복잡도 이론에서의 주요 성과 * **MAX-4-CUT 문제의 한계 돌파:** 그래프의 노드를 4개의 집합으로 분할할 때 가로지르는 엣지를 최대화하는 문제에서, 기존 기록을 경신하는 새로운 근사 불가능성(Inapproximability) 하한선을 제시했습니다. * **무작위 그래프(Random Graphs) 인증:** 무작위 그래프의 특정 성질을 인증하는 데 필요한 '평균 사례 난이도(Average-case hardness)'의 경계를 더욱 정밀하게 좁히는 데 성공했습니다. * 이러한 성과들은 AI가 발견한 유한한 구조를 기존의 견고한 수학적 증명 체계에 성공적으로 통합할 수 있음을 입증합니다. 이 연구는 AI가 정교한 증명 요소를 생성하고 이를 시스템이 검증하는 협업 모델이 이론적 난제 해결에 실질적인 돌파구를 마련할 수 있음을 보여줍니다. 이론 전산학 연구자들은 앞으로 AI를 단순한 보조 도구가 아닌, 인간의 직관을 넘어서는 복잡한 증명 구조를 설계하고 최적화하는 핵심 연구 파트너로 활용할 수 있을 것입니다.

google

The anatomy of a personal health agent (새 탭에서 열림)

구글 리서치는 웨어러블 기기의 시계열 데이터와 혈액 지표 등 다중 모드(multimodal) 데이터를 분석하여 개인화된 건강 통찰력을 제공하는 LLM 기반의 '개인 건강 에이전트(PHA)' 연구 프레임워크를 공개했습니다. 이 시스템은 데이터 과학, 도메인 전문가, 건강 코치라는 세 가지 전문 서브 에이전트로 구성된 멀티 에이전트 아키텍처를 채택하여 사용자의 복잡하고 모호한 건강 질문에 정밀하게 대응합니다. 대규모 실제 사용자 데이터를 활용한 광범위한 평가 결과, PHA는 기존 단일 LLM 대비 데이터 분석 및 의학적 근거 기반 조언 측면에서 월등한 성능을 입증하며 차세대 개인용 건강 관리 도구의 가능성을 제시했습니다. **사용자 중심 설계와 멀티 에이전트 구조** * 1,300개 이상의 실제 건강 질문과 500명 이상의 사용자 설문 조사를 분석하여 일반 건강 지식 이해, 개인 데이터 해석, 실천 가능한 조언, 증상 평가라는 4가지 핵심 요구 사항을 도출했습니다. * 인간 전문가 팀의 업무 방식을 모방하여 데이터 과학자, 도메인 전문가, 개인 건강 코치 역할을 수행하는 서브 에이전트들이 협업하는 구조를 설계했습니다. * 약 1,200명의 사용자로부터 동의를 얻은 핏빗(Fitbit) 활동 데이터, 건강 설문, 혈액 검사 결과를 포함한 리얼 월드 데이터셋을 평가에 활용하여 실무적인 유효성을 검증했습니다. **데이터 과학 에이전트: 시계열 데이터의 수치적 해석** * 웨어러블 기기의 복잡한 시계열 데이터를 분석하며, "최근에 더 건강해졌나요?"와 같은 사용자의 모호한 질문을 구체적인 통계 분석 계획으로 변환합니다. * 분석 계획 수립과 코드 생성의 2단계 프로세스를 거쳐 통계적으로 유효한 답변을 도출하며, 생성된 코드는 실제 데이터에서 즉시 실행 가능한 수준의 정확도를 갖췄습니다. * 평가 결과, 데이터 분석 계획 수립 능력에서 75.6%의 점수를 기록하며 기본 모델(Gemini, 53.7%)을 크게 상회하는 성능을 보였습니다. **도메인 전문가 에이전트: 근거 기반의 신뢰할 수 있는 정보** * NCBI(미국 국립생물정보센터)와 같은 권위 있는 외부 데이터베이스에 접근하여 검증된 사실에 기반한 답변을 생성하는 다단계 추론 프레임워크를 사용합니다. * 사용자의 기저 질환이나 개인 프로필에 맞춰 정보를 맞춤화하여 제공하며, 전문 보건 자격시험 문항 및 감별 진단 능력을 평가하는 벤치마크에서 우수한 성과를 거두었습니다. * 의료 전문가와 일반 소비자 모두를 대상으로 한 인간 평가를 통해 정보의 정확성과 안전성을 동시에 확보했습니다. 이 연구는 범용 LLM의 한계를 넘어 전문화된 에이전트 간의 협업이 개인화된 의료 AI 서비스에서 얼마나 중요한지를 잘 보여줍니다. 앞으로 이러한 기술이 실제 서비스에 적용된다면, 사용자는 자신의 건강 데이터를 단순히 수집하는 것을 넘어 능동적으로 이해하고 실질적인 생활 습관 변화를 이끌어내는 강력한 조력자를 얻게 될 것입니다.

google

Towards better health conversations: Research insights on a “wayfinding” AI agent based on Gemini (새 탭에서 열림)

구글 리서치는 제미나이(Gemini)를 기반으로 한 연구용 프로토타입 '웨이파인딩 AI(Wayfinding AI)'를 통해 건강 정보 탐색 경험을 혁신하는 연구 결과를 발표했습니다. 이 시스템은 단순히 질문에 답하는 기존의 수동적인 방식을 넘어, 사용자에게 능동적으로 질문을 던져 구체적인 상황과 의도를 파악함으로써 더욱 개인화되고 정확한 정보를 제공합니다. 연구 결과, 이러한 맥락 탐색형(Context-seeking) 대화 방식은 사용자가 자신의 건강 문제를 더 명확하게 설명하도록 돕고 정보의 신뢰도와 만족도를 크게 높이는 것으로 나타났습니다. ### 기존 온라인 건강 정보 탐색의 한계 * 일반 사용자는 의학적 전문 지식이 부족하여 자신의 증상을 정확한 용어로 표현하는 데 어려움을 겪으며, 검색창에 모호한 단어들을 나열하는 경향이 있습니다. * 현재 대부분의 AI 모델은 단일 질문에 대해 포괄적인 답변만 내놓는 '수동적 답변자' 역할에 머물러 있어, 개인의 독특한 상황이나 맥락을 반영하지 못합니다. * 연구에 참여한 사용자들은 AI가 답변을 바로 내놓기보다 의사처럼 추가 질문을 통해 상황을 먼저 파악하는 '답변 유예(Deferred-answer)' 방식을 더 선호하며, 이를 통해 더 높은 신뢰감과 안도감을 느꼈습니다. ### 웨이파인딩 AI의 3가지 핵심 설계 원칙 * **능동적 대화 가이드:** 매 대화 턴마다 최대 3개의 정교한 질문을 사용자에게 던져 모호함을 줄이고, 사용자가 자신의 건강 상태를 체계적으로 설명할 수 있도록 유도합니다. * **단계별 최선 답변(Best-effort answers):** 추가 질문에 대한 답을 얻기 전이라도 현재까지 공유된 정보를 바탕으로 최선의 답변을 즉시 제공합니다. 다만, 더 많은 정보가 공유될수록 답변의 정확도가 높아질 수 있음을 명시하여 지속적인 참여를 독려합니다. * **투명한 추론 과정:** 사용자의 추가 답변이 이전 답변을 어떻게 구체화하고 개선했는지 그 논리적 과정을 설명함으로써 AI의 판단 근거를 명확히 공개합니다. ### 상호작용을 극대화하는 2단 인터페이스 설계 * 대화 내용과 추가 질문이 나타나는 왼쪽 열과, 상세 답변 및 설명이 표시되는 오른쪽 열로 구성된 2단 레이아웃을 채택했습니다. * 이러한 분리형 UI는 긴 답변 텍스트 속에 핵심적인 추가 질문이 묻히는 현상을 방지하여 사용자가 대화의 흐름을 놓치지 않게 합니다. * 사용자는 자신의 상황이 충분히 전달되었다고 판단될 때만 오른쪽의 상세 정보 패널을 깊이 있게 탐색할 수 있어 정보 과부하를 줄여줍니다. ### 사용자 연구 및 성능 검증 * 130명의 일반인을 대상으로 제미나이 1.5 플래시(Gemini 1.5 Flash) 기본 모델과 웨이파인딩 AI를 비교하는 무작위 사용자 연구를 진행했습니다. * 평가 결과, 웨이파인딩 AI는 정보의 유용성, 질문의 관련성, 상황 맞춤형 답변, 사용자 의도 파악 등 모든 지표에서 기본 모델보다 높은 점수를 받았습니다. * 참가자들은 AI가 질문을 통해 정보를 수집하는 과정이 마치 실제 전문 의료진과 상담하는 것과 유사한 경험을 제공하며, 결과적으로 더 개인화된 느낌을 준다고 평가했습니다. 이 연구는 건강과 같이 복잡하고 민감한 분야에서 AI가 단순히 지식을 전달하는 백과사전 역할에 그치지 않고, 사용자의 길을 안내하는 '길잡이(Wayfinder)' 역할을 수행해야 함을 시사합니다. 향후 AI 서비스 설계 시, 답변의 정확도만큼이나 사용자의 맥락을 이끌어내는 능동적인 대화 설계가 사용자 경험의 핵심 차별화 요소가 될 것으로 보입니다.

google

AfriMed-QA: Benchmarking large language models for global health (새 탭에서 열림)

Google Research와 아프리카 현지 파트너들은 아프리카 보건 의료 맥락에 특화된 최초의 대규모 의료 벤치마크 데이터셋인 'AfriMed-QA'를 개발했습니다. 이 데이터셋은 기존 서구권 중심의 의료 벤치마크가 반영하지 못했던 아프리카 특유의 질병 분포, 언어적 특성, 문화적 배경을 포함하여 LLM의 실질적인 성능을 평가하도록 설계되었습니다. 연구 결과 대규모 모델일수록 높은 정확도를 보였으며, 이 데이터셋은 Google의 최신 의료 특화 모델인 MedGemma 학습에도 활용되었습니다. ### AfriMed-QA 데이터셋의 구성과 특징 * **데이터 규모 및 구성**: 약 15,000개의 임상 질문과 답변으로 이루어져 있으며, 4,000개 이상의 전문가용 객관식(MCQ), 1,200개 이상의 단답형(SAQ), 10,000개의 소비자 질의(CQ)를 포함합니다. * **광범위한 출처**: 아프리카 12개국, 60개 이상의 의과대학에서 온 621명의 기여자가 참여하여 데이터를 구축했습니다. * **전문 분야 포괄**: 산부인과, 신경외과, 내과, 응급의학, 전염병 등 총 32개의 세부 의료 전공 분야를 망라합니다. * **수집 플랫폼**: Intron Health가 개발한 웹 기반 크라우드소싱 플랫폼을 활용하여 아프리카 현지의 다양한 억양과 다국어 환경을 반영할 수 있는 인터페이스를 구축했습니다. ### 지역적 맥락 반영의 필요성 및 가치 * **분포 변화 대응**: 기존 USMLE MedQA와 같은 데이터셋은 서구 중심의 데이터에 치우쳐 있어, 아프리카 지역의 질병 패턴이나 증상의 맥락적 차이를 평가하는 데 한계가 있었습니다. * **언어적 다양성**: 영어를 사용하더라도 지역마다 다른 언어적 변종(linguistics)과 현지 지식을 정확히 이해해야 실질적인 의료 지원이 가능합니다. * **사회적 영향력**: 본 연구는 저자원 환경에서 LLM이 임상 진단 정확도를 높이고 다국어 의사결정 지원 도구로 기능할 수 있음을 입증하여 ACL 2025에서 '최우수 사회적 영향 논문상'을 수상했습니다. ### LLM 성능 평가 및 시사점 * **평가 대상**: 소형부터 대형 모델에 이르는 총 30개의 일반 및 바이오메디컬 LLM(오픈 소스 및 폐쇄형 포함)을 대상으로 평가를 진행했습니다. * **평가 방법론**: 객관식은 정답 선택 정확도를 측정하고, 단답형은 참조 답변과의 문장 수준 중첩도 및 의미적 유사성을 분석했습니다. * **모델 크기와 성능의 상관관계**: 대규모 모델이 소형 모델보다 AfriMed-QA에서 더 높은 성능을 보였는데, 이는 온디바이스(On-device)나 엣지 배포가 필요한 저자원 환경에서 소형 전문 모델의 개선이 필요함을 시사합니다. ### 데이터 공개 및 향후 활용 * **오픈 소스화**: 아프리카 보건 의료 AI 발전을 위해 벤치마크 데이터셋은 Hugging Face에, 평가 코드는 GitHub에 전면 공개되었습니다. * **실제 모델 적용**: 이 데이터셋은 Google의 최신 의료 특화 오픈 모델인 'MedGemma'의 학습 및 검증에 직접적으로 활용되었습니다. * **확장성**: 본 프로젝트에서 사용된 데이터 수집 및 평가 방법론은 디지털화된 벤치마크가 부족한 다른 지역(locale)에도 확장 적용될 수 있는 가이드라인을 제시합니다.

google

Deep researcher with test-time diffusion (새 탭에서 열림)

Google Cloud 연구진이 발표한 **TTD-DR(Test-Time Diffusion Deep Researcher)**은 인간의 반복적인 연구 방식을 모방하여 고품질의 연구 보고서를 작성하는 새로운 프레임워크입니다. 이 시스템은 초안을 '노이즈'가 섞인 상태로 간주하고 검색된 정보를 통해 이를 점진적으로 정제하는 '디퓨전(Diffusion)' 모델의 원리를 도입했습니다. 이를 통해 TTD-DR은 장문 보고서 작성 및 복잡한 다단계 추론 작업에서 기존 모델들을 능가하는 최첨단(SOTA) 성능을 기록했습니다. ### 디퓨전 프로세스를 활용한 보고서 정제 * **노이즈 제거로서의 수정:** 가공되지 않은 거친 초안을 이미지 생성 모델의 '노이즈' 상태로 정의하고, 검색 도구를 통해 확보한 새로운 사실 정보를 '디노이징(Denoising)' 단계로 활용하여 보고서의 품질을 단계적으로 높입니다. * **인간의 연구 패턴 모방:** 계획 수립, 초안 작성, 추가 조사, 피드백 기반 수정으로 이어지는 인간의 비선형적이고 반복적인 연구 과정을 알고리즘화했습니다. * **지속적인 루프:** 단발성 답변 생성에 그치지 않고, 검색된 정보를 바탕으로 기존 초안의 논리를 강화하거나 누락된 정보를 보충하며 최종 결과물에 도달할 때까지 반복 수정을 거칩니다. ### 핵심 아키텍처: 백본 DR 디자인 * **연구 계획 수립:** 사용자 쿼리를 분석하여 최종 보고서에 필요한 핵심 영역을 구조화된 계획서 형태로 우선 생성합니다. * **반복적 검색(Iterative Search):** 계획서와 이전 검색 맥락을 바탕으로 검색 질문을 생성하는 단계(2a)와, 검색된 문서에서 정답을 요약·추출하는 RAG 기반 단계(2b)가 유기적으로 작동합니다. * **최종 보고서 합성:** 수집된 모든 정보(계획서, 질의응답 쌍)를 통합하여 일관성 있고 포괄적인 형태의 전문 보고서를 작성합니다. ### 컴포넌트 단위의 자기 진화(Self-evolution) 알고리즘 * **다양성 확보:** 각 단계에서 여러 답변 변형을 생성하여 더 넓은 탐색 공간에서 최적의 정보를 찾습니다. * **LLM 기반 평가 및 피드백:** 'LLM-as-a-judge' 시스템을 통해 유용성과 포괄성을 평가하고, 자동화된 평점과 텍스트 피드백을 생성하여 수정 방향을 제시합니다. * **교차 결합(Cross-over):** 여러 차례 수정을 거친 다양한 답변 변형들을 하나의 고품질 출력물로 병합함으로써, 각 진화 경로의 장점만을 취합합니다. ### 성능 검증 및 실무적 시사점 * **SOTA 달성:** 장문 작성 벤치마크인 'LongBench-Write'에서 GPT-4o와 O1 등 기존의 강력한 모델들을 뛰어넘는 성능을 입증했습니다. * **복잡한 추론 능력:** HotpotQA, Bamboogle과 같은 다단계(Multi-hop) 추론 작업에서 단순 검색 이상의 깊이 있는 분석 능력을 보여주었습니다. * **적용 권장:** 이 기술은 단순한 정보 나열을 넘어, 논리적 완성도가 중요한 학술적 조사, 기업 분석 보고서, 복잡한 정책 연구 등 전문적인 글쓰기 자동화 분야에 매우 효과적으로 적용될 수 있습니다.

google

Making LLMs more accurate by using all of their layers (새 탭에서 열림)

구글 리서치(Google Research)는 대형 언어 모델(LLM)의 환각 현상을 줄이고 사실적 정확성을 높이기 위한 새로운 디코딩 전략인 **SLED(Self Logits Evolution Decoding)**를 공개했습니다. 이 방법은 모델의 마지막 레이어뿐만 아니라 모든 내부 레이어에서 생성된 정보를 결합하여 모델이 이미 보유한 지식을 최대한 활용하도록 유도합니다. 별도의 외부 데이터나 추가적인 파인튜닝 없이도 객관식 문제, 추론, 개방형 생성 등 다양한 작업에서 성능을 일관되게 향상시킨다는 점이 핵심입니다. ### 기존 디코딩의 한계와 환각 문제 * LLM은 텍스트를 생성할 때 토큰별로 확률 분포를 계산하며, 일반적으로 가장 마지막 레이어의 결과값(logits)만을 사용하여 다음 단어를 예측합니다. * 이러한 방식은 훈련 데이터에서 자주 등장하는 '대중적인' 답변에 치우치기 쉬워, 문맥상 더 정확한 정보가 모델 내부에 있음에도 불구하고 잘못된 정보를 출력하는 환각 현상을 야기합니다. * 기존의 해결책인 검색 증강 생성(RAG)은 외부 지식 베이스를 구축해야 하는 복잡성이 있으며, 파인튜닝은 높은 비용과 자원이 소모된다는 단점이 있습니다. ### 모든 레이어를 활용하는 SLED의 메커니즘 * SLED는 트랜스포머 구조의 중간 레이어들에서 발생하는 '조기 종료(early exit)' 로짓을 활용합니다. * 중간 레이어의 로짓에 마지막 투영 행렬(projection matrix)을 재사용하여, 모든 레이어에서 각각의 토큰 확률 분포를 생성합니다. * 각 레이어에서 얻은 예측값들을 가중 평균(weighted average)하여 최종 확률 분포를 산출함으로써, 모델의 처리 단계별 정보를 통합하고 예측을 정교화합니다. * 이 과정은 모델 내부의 잠재된 지식을 더 명확하게 끌어내어, 마지막 레이어에서 왜곡될 수 있는 정보를 보정하는 역할을 합니다. ### 사실 관계 확인 및 추론 능력 향상 사례 * **지식 추출:** "브리티시컬럼비아의 주도는 어디인가?"라는 질문에 일반 모델은 인지도가 높은 '밴쿠버'를 답할 확률이 높지만, SLED는 중간 레이어의 정보를 종합하여 정답인 '빅토리아'를 선택할 확률을 높여줍니다. * **단계별 추론(CoT):** 수학 문제 풀이 과정에서 일반 모델은 $A \times B = C$와 같은 단순 패턴에 매몰되어 할인율 적용 등을 누락하기 쉽습니다. SLED는 중간 레이어에서 '등호(=)' 대신 추가 연산 기호가 나올 확률이 높다는 점을 포착하여 더 정확한 계산 결과를 도출합니다. * **범용성:** SLED는 다양한 규모와 설정의 LLM에 유연하게 적용 가능하며, 다른 사실성 강화 디코딩 기법과 결합하여 환각을 더욱 효과적으로 억제할 수 있습니다. SLED는 모델의 아키텍처를 변경하거나 외부 시스템을 도입하지 않고도 LLM의 신뢰성을 높일 수 있는 실용적인 대안입니다. 모델 내부의 계층적 정보를 최대한 활용하려는 접근 방식은 특히 고도의 정확성이 요구되는 추론 작업이나 전문 지식 답변 서비스에서 강력한 효과를 발휘할 것으로 기대됩니다. 오픈 소스로 공개된 코드를 통해 기존 워크플로우에 즉시 통합하여 성능 개선을 시도해 볼 수 있습니다.

google

VaultGemma: The world's most capable differentially private LLM (새 탭에서 열림)

구글 리서치는 차분 프라이버시(Differential Privacy, DP) 기술을 적용해 밑바닥부터 학습시킨 모델 중 세계 최고 성능을 자랑하는 'VaultGemma'를 공개했습니다. 이 모델은 새롭게 정립된 'DP 스케일링 법칙'을 바탕으로 연산량, 프라이버시 예산, 모델 성능 사이의 복잡한 트레이드오프를 최적화하여 설계되었습니다. 10억 개의 파라미터를 보유한 VaultGemma는 강력한 프라이버시 보장과 동시에 실용적인 성능을 입증하며 차세대 보안 AI 개발의 새로운 기준을 제시합니다. ### 차분 프라이버시 환경을 위한 새로운 스케일링 법칙 * **노이즈-배치 비율(Noise-batch ratio)의 중요성:** DP 학습 시 추가되는 무작위 노이즈와 데이터 그룹(배치) 크기 사이의 비율이 모델의 학습 능력을 결정하는 핵심 변수임을 확인했습니다. * **최적 학습 구성의 변화:** 일반적인 모델 학습과 달리, DP 환경에서는 모델 크기를 다소 줄이는 대신 배치 크기를 획기적으로 키우는 것이 성능 최적화에 훨씬 유리하다는 사실을 밝혀냈습니다. * **예산 간의 시너지 효과:** 프라이버시 예산(epsilon)만 늘리는 것은 효율이 낮으며, 반드시 연산 예산(FLOPs)이나 데이터 예산(tokens) 증설이 병행되어야만 성능이 유의미하게 향상됩니다. ### 대규모 학습을 위한 알고리즘 혁신 * **셔플링 기반 프라이버시 증폭:** 대규모 TPU 클러스터에서 구현하기 어려운 포아송 샘플링(Poisson sampling) 대신, 데이터를 무작위로 섞어 프라이버시 효과를 높이는 '셔플 배치 DP-SGD' 기법을 도입했습니다. * **최적화 도구 및 구조:** Gemma 2 아키텍처를 기반으로 하며, DP-AdamW 옵티마이저를 사용해 학습 안정성을 확보하고 계산 효율성을 극대화했습니다. * **프라이버시 회계(Privacy Accounting):** 엄격한 수학적 증명을 통해 $\epsilon=8$, $\delta=10^{-12}$ 수준의 프라이버시 보장을 실현했습니다. ### 성능 평가 및 실전 비교 * **기존 모델 압도:** VaultGemma 1B 모델은 자신보다 훨씬 큰 규모의 DP 모델인 DP-OPT 6.7B보다 MMLU, GSM8K 등 주요 벤치마크에서 월등히 높은 성능을 기록했습니다. * **비 DP 모델과의 경쟁력:** 프라이버시 보호 기술이 적용되었음에도 불구하고, 프라이버시 기능이 없는 표준 GPT-2 모델의 성능을 상회하는 등 실용 가능성을 입증했습니다. * **오픈소스 공개:** 연구 커뮤니티의 발전을 위해 모델 가중치와 기술 보고서를 Hugging Face와 Kaggle에 공개하여 누구나 안전한 AI를 연구할 수 있도록 지원합니다. VaultGemma는 민감한 개인정보나 보안이 중요한 데이터를 다루는 기업 및 연구자들에게 강력한 도구가 될 것입니다. 특히 데이터 암기(Memorization)를 수학적으로 방지해야 하는 환경에서, 이 모델은 프라이버시와 성능이라는 두 마리 토끼를 잡을 수 있는 최적의 출발점을 제공합니다.