Google Research / gen-ai

15 개의 포스트

google

Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR (새 탭에서 열림)

구글 리서치는 의료용 생성형 AI 모델인 MedGemma의 기능을 대폭 강화한 'MedGemma 1.5 4B'와 의료 전문 음성 인식 모델 'MedASR'을 새롭게 공개했습니다. 이번 업데이트는 CT, MRI 등 고차원 의료 영상 분석과 시계열 데이터 처리 능력을 크게 향상시켜 개발자들이 보다 정밀한 의료 보조 애플리케이션을 구축할 수 있도록 돕습니다. 오픈 모델로 제공되는 이 기술들은 연구 및 상업적 목적으로 자유롭게 활용 가능하며, 의료 현장의 디지털 전환을 가속화하는 핵심 도구가 될 것으로 기대됩니다. **MedGemma 1.5의 고차원 의료 영상 처리 역량** * 기존 2차원 이미지를 넘어 CT와 MRI 같은 3차원 볼륨 데이터, 그리고 대용량 병리 조직 슬라이드(Whole-slide histopathology) 분석 기능을 새롭게 지원합니다. * 여러 장의 이미지 슬라이드나 패치를 입력값으로 받아 복합적인 추론이 가능하며, 내부 벤치마크 결과 CT 관련 질환 분류 정확도는 기존 대비 3%, MRI는 14% 향상되었습니다. * 흉부 엑스레이의 시계열 검토(Longitudinal review) 기능을 통해 환자의 과거와 현재 상태 변화를 추적하거나, 특정 해부학적 특징의 위치를 파악하는 로컬라이제이션 기능이 강화되었습니다. * 의료 실험 보고서와 같은 비정형 문서에서 구조화된 데이터를 추출하는 의료 문서 이해 능력이 개선되어 데이터 관리 효율성을 높였습니다. **의료 음성 인식 모델 MedASR과 개발 생태계** * MedASR은 의료 전문 용어와 진단 받아쓰기에 최적화된 자동 음성 인식 모델로, 의료진의 음성을 텍스트로 변환하여 MedGemma의 추론 엔진과 즉시 연동할 수 있습니다. * MedGemma 1.5 4B 모델은 오프라인에서도 실행 가능한 효율적인 크기로 설계되어, 연산 자원이 제한된 환경에서도 높은 성능을 유지하며 유연하게 배포할 수 있습니다. * 구글은 10만 달러 규모의 상금을 건 'MedGemma Impact Challenge' 해커톤을 Kaggle에서 개최하여 전 세계 개발자들이 의료 AI를 창의적으로 활용할 수 있도록 독려하고 있습니다. * 모든 모델은 Hugging Face와 Google Cloud Vertex AI를 통해 제공되어, 개발자가 자신의 유스케이스에 맞춰 모델을 미세 조정하고 대규모 애플리케이션으로 확장하기 용이합니다. 의료 AI 애플리케이션을 개발하려는 엔지니어는 MedGemma 1.5 4B를 시작점으로 삼아 로컬 환경에서 프로토타입을 구축하는 것이 효율적입니다. 특히 MedASR을 활용해 의료진의 구두 기록을 텍스트화하고 이를 MedGemma의 다중 모달 분석 기능과 결합한다면, 실시간 진단 보조 및 임상 의사 결정 지원 분야에서 강력한 경쟁력을 확보할 수 있을 것입니다.

google

Google Research 2025: Bolder breakthroughs, bigger impact (새 탭에서 열림)

2025년 구글 리서치는 기초 연구가 실제 제품과 사회적 가치로 연결되는 '혁신의 마법 주기(Magic Cycle)'를 가속화하며 생성형 AI, 과학적 발견, 양자 컴퓨팅 분야에서 기념비적인 성과를 거두었습니다. 제미나이 3(Gemini 3)로 대표되는 모델의 효율성과 사실성 개선은 물론, 스스로 도구를 사용하는 에이전트 모델과 질병 치료를 위한 바이오 AI 기술을 통해 기술적 한계를 한 단계 더 확장했습니다. 이러한 연구 결과는 단순한 기술 진보를 넘어 기후 변화 대응과 교육 등 인류 공통의 과제를 해결하는 데 실질적인 기여를 하고 있습니다. **생성형 모델의 효율성 및 신뢰성 고도화** * **추론 효율성 최적화:** '투기적 디코딩(Speculative decoding)'과 가상 머신 작업 수명을 예측하는 'LAVA' 알고리즘을 도입하여 대규모 클라우드 데이터 센터의 리소스 효율성과 비용 절감을 실현했습니다. * **사실성(Factuality) 강화:** 2021년부터 이어진 LLM 사실성 연구를 집대성하여 제미나이 3를 역대 가장 사실적인 모델로 구축했으며, FACTS 벤치마크 등을 통해 모델의 정보 근거 제시 능력을 입증했습니다. * **다국어 및 다문화 대응:** 오픈 모델인 '젬마(Gemma)'를 140개 이상의 언어로 확장하고, 문화적 맥락을 이해하는 'TUNA' 분류 체계와 'Amplify' 이니셔티브를 통해 글로벌 사용자에게 최적화된 AI 경험을 제공합니다. **생성형 UI와 지능형 에이전트의 등장** * **인터랙티브 인터페이스:** 사용자의 프롬프트에 따라 웹페이지, 게임, 도구 등의 시각적 인터페이스를 실시간으로 생성하는 '생성형 UI'를 제미나이 3에 도입했습니다. * **에이전트 기능(Agentic AI):** 단순 응답을 넘어 복잡한 작업을 수행하는 '프로젝트 자비스(Project Jarvis)'와 웹 브라우징 에이전트를 통해 사용자의 일상 업무를 자동화하는 능력을 선보였습니다. * **코드 및 추론 능력:** 고도화된 추론 아키텍처를 통해 소프트웨어 엔지니어링 성능을 비약적으로 향상시켰으며, 이는 구글 내부 코드의 25% 이상이 AI에 의해 생성되는 결과로 이어졌습니다. **과학적 혁신과 헬스케어의 진보** * **생물학적 발견:** 단백질 구조 예측을 넘어 분자 상호작용을 모델링하는 'AlphaFold 3'와 새로운 단백질을 설계하는 'AlphaProteo'를 통해 신약 개발과 질병 이해의 속도를 높였습니다. * **의료 특화 모델:** 'Med-Gemini'와 같은 의료 전용 모델을 개발하여 흉부 엑스레이 분석, 유전체 데이터 해석 등 전문적인 의료 진단 보조 도구로서의 가능성을 확인했습니다. * **뇌 과학 연구:** 하버드 대학과의 협력을 통해 인간 대뇌 피질의 시냅스 수준 지도를 제작하는 등 신경과학 분야에서도 전례 없는 성과를 냈습니다. **양자 컴퓨팅과 지구 과학을 통한 미래 대비** * **양자 우위와 실용화:** 양자 오류 정정 기술의 혁신을 통해 실제 문제 해결에 활용 가능한 양자 컴퓨팅 시대를 앞당겼습니다. * **기후 및 환경 대응:** 산불을 실시간으로 추적하는 'FireSat' 위성 네트워크와 비행운(Contrails) 감소 연구 등을 통해 기후 위기 대응을 위한 구체적인 AI 솔루션을 제시했습니다. * **책임감 있는 AI:** 콘텐츠의 출처를 밝히는 'SynthID' 워터마킹 기술을 텍스트와 비디오로 확대 적용하여 AI 생성 콘텐츠의 투명성과 안전성을 강화했습니다. 구글의 2025년 성과는 AI가 단순한 보조 도구를 넘어 과학 연구의 속도를 높이고 복잡한 사회 문제를 해결하는 강력한 에이전트로 진화했음을 보여줍니다. 기업과 연구자는 이제 단순한 챗봇 구현을 넘어, 특정 도메인에 특화된 에이전트 모델과 생성형 UI를 활용한 새로운 사용자 경험 설계에 집중해야 할 시점입니다.

google

Gemini provides automated feedback for theoretical computer scientists at STOC 2026 (새 탭에서 열림)

Google Research는 이론 컴퓨터 과학 분야의 최고 권위 학회인 STOC 2026 제출 논문을 대상으로, Gemini를 활용한 자동 피드백 도구를 실험적으로 도입했습니다. 이 도구는 복잡한 논리 구조와 수식을 검증하여 인간 연구자가 수개월 동안 발견하지 못한 치명적인 오류를 24시간 이내에 찾아내는 성과를 거두었습니다. 결과적으로 참여 저자의 97%가 피드백이 유용했다고 답하며, AI가 전문적인 연구 워크플로우를 보조하는 강력한 협업 도구가 될 수 있음을 증명했습니다. **추론 확장 기술을 통한 수학적 엄밀성 확보** * Gemini 2.5 Deep Think의 고급 버전에 적용된 '추론 확장(Inference Scaling)' 메서드를 활용하여 단순한 선형적 사고를 넘어 여러 해결 경로를 동시에 탐색합니다. * 다양한 추론 및 평가 흔적(traces)을 결합함으로써 LLM 특유의 환각 현상을 줄이고, 논문의 가장 핵심적인 논리적 결함에 집중할 수 있도록 최적화되었습니다. **구조화된 피드백 제공 방식** * 저자들에게는 논문의 기여도 요약, 주요 정리(Theorem) 및 보조 정리(Lemma)에 대한 구체적인 오류 지적 및 개선 제안, 오타 및 단순 교정 사항이 포함된 체계적인 리포트가 제공됩니다. * 단순한 문구 수정을 넘어 변수 이름의 불일치, 부등식의 잘못된 적용, 증명 과정에서의 논리적 공백 등 기술적인 디테일을 심층 분석합니다. **실제 연구 현장에서의 성과와 사용자 반응** * 실험에 참여한 논문의 80% 이상이 AI 리뷰를 선택했으며, 저자들은 수개월간 발견하지 못했던 '논문 전체를 부정하게 만드는 치명적인 버그'를 AI가 찾아냈다는 점에 주목했습니다. * 설문 결과 참여자의 97%가 재사용 의사를 밝혔으며, 81%는 논문의 명확성과 가독성이 크게 향상되었다고 평가했습니다. * 인간 리뷰어와 달리 중립적인 톤으로 신속하게(2일 이내) 피드백을 제공한다는 점이 큰 장점으로 꼽혔습니다. **전문가와 AI의 협업 모델 및 한계점** * 모델이 복잡한 표기법이나 그림을 해석하는 과정에서 간혹 환각을 일으키기도 하지만, 해당 분야의 전문가인 저자들은 AI의 출력물에서 '노이즈'를 걸러내고 유익한 통찰만을 선택적으로 수용하는 능력을 보여주었습니다. * 이는 AI가 인간을 대체하는 것이 아니라, 전문가의 판단을 돕고 검증의 시작점 역할을 수행하는 '보조적 파트너'로서 최적화되어 있음을 시사합니다. **교육적 가치와 미래 전망** * 설문에 응한 연구자의 75%는 이 도구가 학생들에게 수학적 엄밀성과 논문 작성법을 교육하는 데 큰 가치가 있다고 응답했습니다. * 연구 커뮤니티의 88%는 연구 프로세스 전반에 걸쳐 이러한 도구를 지속적으로 사용하기를 희망하고 있으며, Google은 향후 동료 검토(Peer Review) 과정을 대체하는 것이 아닌, 이를 보완하고 강화하는 방향으로 기술을 발전시킬 계획입니다. 연구자들은 이 도구를 단순한 자동 검토기가 아닌, 연구 초기 단계부터 논리의 빈틈을 메워주는 '상시 접속 가능한 동료 연구자'로 활용할 것을 권장합니다. 특히 복잡한 증명이 포함된 논문을 투고하기 전, 예상치 못한 논리적 오류를 사전에 필터링하는 용도로 매우 유용합니다.

google

Spotlight on innovation: Google-sponsored Data Science for Health Ideathon across Africa (새 탭에서 열림)

구글 리서치는 아프리카 전역의 데이터 과학 커뮤니티와 협력하여 현지의 시급한 의료 과제를 해결하기 위한 'Data Science for Health Ideathon'을 개최했습니다. 이 대회는 MedGemma, MedSigLIP 등 구글의 개방형 의료 AI 모델을 활용해 자궁경부암 검진, 모성 건강 지원 등 아프리카 보건 시스템에 실질적인 변화를 가져올 수 있는 솔루션을 개발하는 데 중점을 두었습니다. 최종 선정된 팀들은 구글의 기술 자원과 전문가 멘토링을 통해 아이디어를 구체적인 프로토타입으로 구현하며 지역 맞춤형 AI 혁신의 가능성을 증명했습니다. **협력적 의료 혁신과 기술적 기반** * 르완다 키갈리에서 열린 'Deep Learning Indaba' 컨퍼런스를 기점으로 아프리카 AI 및 의료 커뮤니티 간의 역량 강화를 목표로 시작되었습니다. * 참가자들에게는 MedGemma(의료 LLM), TxGemma(치료제 개발 모델), MedSigLIP(의료 영상 분석 모델) 등 구글의 최신 보건 AI 모델이 제공되었습니다. * 프로젝트 수행을 위해 Google Cloud Vertex AI 컴퓨팅 크레딧과 상세 기술 문서, 구글 DeepMind 연구진의 기술 멘토링이 단계별로 지원되었습니다. **자궁경부암 및 모성 건강을 위한 AI 솔루션** * **Dawa Health (1위):** WhatsApp으로 업로드된 질확대경 영상을 MedSigLIP 기반 분류기로 실시간 분석하여 암 징후를 식별합니다. 여기에 Gemini RAG(검색 증강 생성)를 결합해 세계보건기구(WHO)와 잠비아의 프로토콜에 따른 임상 가이드를 제공합니다. * **Solver (2위):** 자궁경부 세포진 검사 자동화를 위해 MedGemma-27B-IT 모델을 LoRA(Low-Rank Adaptation) 방식으로 파인튜닝했습니다. FastAPI 기반의 웹 앱을 통해 병리 의사에게 주석이 달린 이미지와 임상 권고안을 출력합니다. * **Mkunga (3위):** 모성 건강 상담을 위해 MedGemma와 Gemini를 활용한 AI 콜센터를 구축했습니다. Vertex AI의 TTS/STT(음성 합성 및 인식) 기술을 통해 스와힐리어로 저비용 원격 진료 서비스를 제공합니다. **열악한 통신 환경을 고려한 기술적 접근** * **HexAI (최우수 PoC):** 인터넷 연결이 제한된 환경에서도 작동할 수 있는 오프라인 우선(Offline-first) 모바일 앱 'DermaDetect'를 개발했습니다. * 온디바이스(On-device) 형태의 MedSigLIP 모델을 통해 커뮤니티 건강 요원들이 현장에서 피부 질환을 즉시 분류할 수 있도록 설계되었습니다. * 고도화된 분석이 필요한 경우에만 클라우드 기반의 MedGemma와 연결하는 하이브리드 구조를 채택하여 데이터 플라이휠을 구축했습니다. 이번 사례는 고성능 의료 AI 모델이 오픈소스로 제공될 때, 현지 개발자들이 지역적 특수성과 인프라 한계를 극복하며 얼마나 창의적인 솔루션을 구축할 수 있는지 잘 보여줍니다. 특히 인프라가 부족한 지역에서는 RAG를 통한 신뢰성 확보나 온디바이스 모델링을 통한 오프라인 지원 기술이 의료 격차를 해소하는 핵심적인 전략이 될 수 있음을 시사합니다.

google

Toward provably private insights into AI use (새 탭에서 열림)

구글 리서치는 생성형 AI 서비스의 사용 패턴을 분석하면서도 사용자 프라이버시를 수학적으로 보장할 수 있는 '증명 가능한 개인정보 보호 인사이트(PPI)' 시스템을 공개했습니다. 이 시스템은 신뢰 실행 환경(TEE), 차분 프라이버시(DP), 그리고 대규모 언어 모델(LLM)을 결합하여 비정형 데이터를 안전하게 분석하는 환경을 구축했습니다. 이를 통해 개발자는 원본 데이터에 접근하지 않고도 AI 도구의 활용 사례와 개선점을 파악할 수 있으며, 모든 처리 과정은 오픈 소스로 공개되어 외부 검증이 가능합니다. **증명 가능한 개인정보 보호 인사이트(PPI)의 구동 원리** * **기기 내 데이터 보호:** 사용자 기기에서 분석할 데이터를 결정한 후 암호화하여 전송하며, 이 데이터는 서버의 TEE 내에서만 복호화될 수 있습니다. * **기밀 연합 분석(CFA) 활용:** Gboard 등에 적용되었던 기술을 발전시켜, 데이터 처리 단계를 기기가 사전에 승인한 로직으로만 제한하고 인간의 개입을 원천 차단합니다. * **데이터 전문가 LLM:** TEE 내부에 배치된 Gemma 3 모델이 "사용자가 어떤 주제를 논의 중인가?"와 같은 특정 질문에 답하는 방식으로 비정형 데이터를 정형화된 요약 정보로 변환합니다. **차분 프라이버시를 통한 익명성 보장** * **통계적 노이즈 추가:** LLM이 추출한 범주형 답변들을 집계할 때 차분 프라이버시 알고리즘을 적용하여 히스토그램을 생성합니다. * **개인 식별 방지:** 특정 개인의 데이터가 전체 통계 결과에 유의미한 영향을 미치지 않도록 설계되어, 분석가가 악의적인 프롬프트를 사용하더라도 개별 사용자를 식별할 수 없습니다. * **프롬프트 유연성:** DP 보증은 집계 알고리즘 단계에서 이루어지므로, 분석가는 프라이버시 침해 걱정 없이 LLM의 프롬프트를 자유롭게 변경하며 다양한 인사이트를 얻을 수 있습니다. **투명성 및 외부 검증 가능성** * **전 과정 오픈 소스화:** 개인정보 보호 집계 알고리즘부터 TEE 스택까지 모든 요소를 'Google Parfait' 프로젝트를 통해 오픈 소스로 공개했습니다. * **재현 가능한 빌드:** 외부 감사자가 공개된 코드와 실제 서버에서 실행 중인 바이너리가 일치하는지 확인할 수 있도록 재현 가능한 빌드 시스템을 지원합니다. * **실제 적용 사례:** Pixel 기기의 녹음기(Recorder) 앱 분석에 이 기술을 적용하여, 오픈 소스 Gemma 모델이 사용자의 녹음 데이터 요약 기능을 어떻게 활용하는지 안전하게 파악하고 있습니다. 생성형 AI의 성능 개선을 위해 실사용 데이터 분석이 필수적인 상황에서, PPI 시스템은 기술적 신뢰를 바탕으로 한 프라이버시 보호의 새로운 기준을 제시합니다. 개발자들은 구글이 공개한 기술 스택을 활용해 데이터 활용의 투명성을 높이고, 사용자의 신뢰를 얻으면서도 정교한 서비스 개선 인사이트를 도출할 수 있을 것입니다.

google

A picture's worth a thousand (private) words: Hierarchical generation of coherent synthetic photo albums (새 탭에서 열림)

구글 리서치(Google Research)는 차분 프라이버시(Differential Privacy, DP) 기술을 적용하여 데이터의 프라이버시를 완벽히 보호하면서도, 사진 앨범과 같이 복잡한 구조를 가진 합성 데이터를 생성하는 새로운 방법론을 제시했습니다. 이 방식은 이미지를 직접 생성하는 대신 중간 단계로 '텍스트' 표현을 활용하고 이를 계층적으로 구성함으로써, 개별 사진 간의 주제적 일관성을 유지하는 동시에 연산 효율성까지 확보했습니다. 결과적으로 조직은 복잡한 분석 도구마다 프라이버시 기술을 개별 적용할 필요 없이, 안전하게 생성된 합성 앨범 데이터셋만으로도 고도화된 모델 학습과 분석을 수행할 수 있게 됩니다. ### 중간 텍스트 표현을 활용한 프라이버시 강화 기존의 합성 데이터 생성 방식이 단일 이미지나 짧은 텍스트에 치중했던 것과 달리, 본 연구는 이미지를 텍스트로 변환하는 과정을 핵심 기제로 활용합니다. * **손실 압축을 통한 프라이버시 증진:** 이미지를 상세한 텍스트 캡션으로 설명하는 과정은 본질적으로 정보의 일부를 생략하는 '손실 연산'이며, 이는 원본 데이터의 미세한 고유 정보를 보호하는 자연스러운 방어막 역할을 합니다. * **LLM의 강점 활용:** 거대언어모델(LLM)의 뛰어난 텍스트 생성 및 요약 능력을 활용하여, 원본 이미지의 핵심적인 의미 정보(Semantic information)를 효과적으로 포착합니다. * **리소스 최적화:** 이미지 생성은 비용이 많이 들지만 텍스트 생성은 상대적으로 저렴합니다. 텍스트 단계에서 먼저 콘텐츠를 필터링하고 선별함으로써, 불필요한 이미지 생성에 소요되는 연산 자원을 절약할 수 있습니다. ### 계층적 구조를 통한 앨범의 일관성 유지 사진 앨범은 여러 장의 사진이 하나의 주제나 캐릭터를 공유해야 하므로 단순한 개별 이미지 생성보다 난이도가 높습니다. 연구팀은 이를 해결하기 위해 계층적 생성 전략을 채택했습니다. * **2단계 모델 구조:** 앨범 전체의 요약을 생성하는 모델과, 이 요약을 바탕으로 개별 사진의 상세 캡션을 생성하는 모델을 분리하여 학습시킵니다. * **문맥적 일관성 확보:** 모든 개별 사진 캡션이 동일한 '앨범 요약'을 문맥(Context)으로 공유하기 때문에, 생성된 결과물들이 서로 조화를 이루며 하나의 일관된 스토리를 형성하게 됩니다. * **연산 효율성 증대:** 트레이닝 비용은 컨텍스트 길이에 따라 제곱으로 증가합니다. 하나의 긴 컨텍스트를 처리하는 대신 짧은 컨텍스트를 가진 두 개의 모델을 학습시킴으로써 전체적인 연산 비용을 대폭 낮췄습니다. ### 프라이버시가 보장된 학습 알고리즘 합성 데이터가 원본 사용자의 고유한 정보를 유출하지 않도록 엄격한 수학적 증명을 기반으로 하는 학습 기술을 적용했습니다. * **DP-SGD 적용:** DP-SGD(Differentially Private Stochastic Gradient Descent) 알고리즘을 사용하여 모델을 미세 조정(Fine-tuning)함으로써, 생성된 데이터셋이 실제 데이터의 공통적인 패턴은 학습하되 특정 개인의 세부 사항은 포함하지 않도록 보장합니다. * **안전한 데이터 대체제:** 이렇게 생성된 합성 데이터는 프라이버시 위험이 제거된 상태이므로, 데이터 과학자들은 별도의 복잡한 보안 절차 없이 표준적인 분석 기법을 즉시 적용할 수 있습니다. 이 방법론은 단순히 사진 앨범에 국한되지 않고 비디오나 복합 문서와 같이 구조화된 멀티모달 데이터를 안전하게 생성하는 데 광범위하게 응용될 수 있습니다. 고품질의 데이터 확보가 어렵거나 프라이버시 규제가 엄격한 환경에서, 이와 같은 계층적 합성 데이터 생성 방식은 안전하고 효율적인 대안이 될 것입니다.

google

Teaching Gemini to spot exploding stars with just a few examples (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

google

Learn Your Way: Reimagining textbooks with generative AI (새 탭에서 열림)

구글 리서치가 발표한 'Learn Your Way'는 생성형 AI를 활용해 모든 학생에게 동일하게 제공되던 기존 교과서를 개별 학습자에게 최적화된 다중 매체 학습 도구로 재구성하는 연구 프로젝트입니다. 교육 전문 모델인 LearnLM과 Gemini 2.5 Pro를 기반으로 한 이 시스템은 학습자의 관심사와 학년 수준에 맞춰 내용을 변형하며, 실험 결과 일반적인 디지털 리더를 사용한 학생들보다 학습 기억력 점수가 11%p 더 높게 나타나는 성과를 거두었습니다. **학습자 맞춤형 개인화 파이프라인** * 학습자가 자신의 학년과 관심사(스포츠, 음악, 음식 등)를 설정하면 AI가 원본 PDF의 내용은 유지하면서 난이도를 적절하게 재조정합니다. * 교과서 속의 일반적이고 딱딱한 예시들을 학습자가 선택한 관심사와 관련된 사례로 전략적으로 교체하여 학습 동기를 부여합니다. * 이렇게 개인화된 텍스트는 이후 생성되는 마인드맵, 오디오 강의, 슬라이드 등 모든 다른 형식의 콘텐츠를 생성하는 근간이 됩니다. **학습 효과를 극대화하는 다중 표상 기술** * 이중 부호화 이론(Dual Coding Theory)에 근거하여, 텍스트 외에도 이미지, 마인드맵, 타임라인 등 다양한 시각적·청각적 형식을 제공함으로써 뇌의 개념 체계 형성을 돕습니다. * 단순한 이미지 생성을 넘어, 일반적인 AI 모델이 어려워하는 교육용 정밀 일러스트레이션을 생성하기 위해 특화된 전용 모델을 미세 조정(Fine-tuning)하여 활용했습니다. * 다단계 에이전트 워크플로우를 통해 나레이션이 포함된 슬라이드 제작과 같이 복잡한 교육학적 과정이 필요한 콘텐츠를 자동 생성합니다. **Learn Your Way의 주요 인터페이스 구성** * **몰입형 텍스트(Immersive Text):** 긴 본문을 소화하기 쉬운 단위로 나누고, 생성된 이미지와 임베디드 질문을 배치해 수동적인 독서를 능동적인 학습 경험으로 전환합니다. * **섹션별 퀴즈:** 실시간 응답을 기반으로 학습자가 자신의 지식 격차를 파악할 수 있도록 돕고, 학습 경로를 다시 최적화하는 피드백 루프를 제공합니다. * **슬라이드 및 오디오 강의:** 전체 학습 내용을 요약한 프레젠테이션과 빈칸 채우기 활동, 그리고 이동 중에도 들을 수 있는 오디오 강의를 제공하여 다양한 학습 환경에 대응합니다. 이 연구는 생성형 AI가 단순히 정보를 요약하는 수준을 넘어, 교육학적 원리를 기술적으로 구현하여 학습자 중심의 개인화된 교육 환경을 구축할 수 있음을 보여줍니다. 향후 교과서는 정적인 텍스트가 아니라 학습자의 반응과 필요에 따라 실시간으로 변화하는 유연한 학습 파트너의 역할을 하게 될 것으로 기대됩니다.

google

How Google’s AI can help transform health professions education (새 탭에서 열림)

구글은 전 세계적인 의료 인력 부족 문제를 해결하기 위해 AI를 활용한 보건 의료 교육 혁신 방안을 연구하고 있습니다. 최근 발표된 두 가지 연구에 따르면, 학습자 중심의 맞춤형 피드백을 제공하는 'LearnLM' 모델이 기존 AI 모델보다 뛰어난 교육적 성과를 보였으며, 이는 의료진 교육의 질을 높이는 강력한 도구가 될 수 있음을 시사합니다. 이러한 연구 결과는 실제 의료 교육 현장에서 AI가 단순한 정보 전달자를 넘어 숙련된 튜터와 같은 역할을 수행할 수 있다는 가능성을 입증합니다. **의료 학습자 중심의 디자인과 정성적 연구** * **참여형 디자인 워크숍:** 의료 학생, 임상의, 교육자, AI 연구자 등 다학제적 전문가들이 모여 의료 교육에 AI를 통합하기 위한 기회를 정의하고, 임상 추론 학습을 돕는 AI 튜터 프로토타입을 설계했습니다. * **학습자 니즈 파악:** 의대생 및 레지던트를 대상으로 한 정성적 연구 결과, 학습자들은 개인의 지식 수준과 학습 스타일에 맞춰 반응하는 도구를 선호한다는 점이 밝혀졌습니다. * **프리셉터(Preceptor) 행동의 중요성:** 학습자들은 인지 부하 관리, 건설적인 피드백 제공, 질문과 성찰 유도 등 실제 지도 교수와 유사한 AI의 행동이 임상 추론 능력을 키우는 데 필수적이라고 평가했습니다. **LearnLM의 교육적 역량 및 정량적 평가** * **비교 평가 수행:** 교육용으로 미세 조정(fine-tuning)된 'LearnLM'과 기본 모델인 'Gemini 1.5 Pro'의 성능을 비교하기 위해 의료 교육 주제를 아우르는 50개의 가상 시나리오를 설계했습니다. * **현장 중심의 시나리오:** 혈소판 활성화와 같은 기초 의학부터 신생아 황달 같은 임상 주제까지, 실제 의과대학의 핵심 역량 표준을 반영한 시나리오를 통해 모델의 실효성을 검증했습니다. * **블라인드 테스트 결과:** 의대생들은 LearnLM이 학습 목표 달성, 사용 편의성, 이해도 측면에서 더 우수하다고 평가했으며, 특히 실제 학습 상황을 가정한 290개의 대화 데이터를 통해 그 성능이 입증되었습니다. **AI 튜터로서의 교육학적 우수성** * **전문가 평가:** 전문의 교육자들은 LearnLM이 기본 모델에 비해 훨씬 더 나은 교육법(Pedagogy)을 보여주며, "매우 우수한 인간 튜터처럼 행동한다"고 분석했습니다. * **비판적 사고 유도:** 단순히 정답을 알려주는 것에 그치지 않고, 학생이 스스로 생각할 수 있도록 유도하고 부족한 부분을 정확히 짚어주는 능력이 탁월한 것으로 나타났습니다. * **최신 모델 적용:** 연구에서 검증된 LearnLM의 혁신적인 교육 기능들은 현재 'Gemini 2.5 Pro' 모델에 통합되어 실무에서 활용 가능한 상태입니다. 이러한 연구 결과는 AI가 의료 교육의 개인화를 실현하고, 바쁜 임상 현장에서 교육자들의 부담을 덜어주는 동시에 차세대 의료 인력의 역량을 효과적으로 강화할 수 있음을 보여줍니다. 향후 의료 교육 기관에서는 Gemini 2.5 Pro와 같은 모델을 도입하여 학생들에게 24시간 접근 가능한 맞춤형 임상 지도 서비스를 제공하는 것을 적극적으로 고려해볼 수 있습니다.

google

From massive models to mobile magic: The tech behind YouTube real-time generative AI effects (새 탭에서 열림)

YouTube는 지식 증류(Knowledge Distillation) 기술과 MediaPipe를 이용한 온디바이스 최적화 아키텍처를 통해 대규모 생성형 AI 모델을 모바일 환경에서 실시간으로 구현했습니다. 이 시스템은 거대 모델의 성능을 소형화된 학생 모델에 전이함으로써 사용자 정체성을 유지하면서도 초당 30프레임 이상의 속도로 카툰 스타일 변환 등의 복잡한 효과를 제공합니다. 결과적으로 유튜브 쇼츠 사용자들은 고성능 GPU 서버 없이도 자신의 기기에서 즉각적이고 고품질의 AI 효과를 경험할 수 있게 되었습니다. ### 고품질 데이터와 지식 증류 아키텍처 * **다양성을 고려한 데이터 구축**: 성별, 연령, 피부색(Monk Skin Tone Scale 기준) 등이 균형 있게 분포된 라이선스 기반 얼굴 데이터셋을 사용하여 모든 사용자에게 일관된 품질의 효과를 제공합니다. * **교사-학생(Teacher-Student) 모델**: StyleGAN2 또는 Google DeepMind의 Imagen과 같은 강력한 '교사 모델'이 시각적 효과를 생성하면, UNet 기반의 가벼운 '학생 모델'이 이를 학습합니다. * **모바일 최적화 백본**: 학생 모델은 모바일 기기에 최적화된 MobileNet 백본을 인코더와 디코더에 사용하여 연산 부담을 최소화하면서도 이미지 변환 효율을 높였습니다. ### 반복적 증류 프로세스와 최적화 * **데이터 생성 및 증강**: 교사 모델을 통해 수만 쌍의 '변환 전후' 이미지 쌍을 생성하며, 이때 AR 안경, 합성된 손에 의한 가려짐(occlusion) 등 다양한 증강 기법을 적용해 실제 촬영 환경에 대비합니다. * **복합 손실 함수 활용**: 학생 모델 학습 시 단순 수치적 정확도를 넘어 시각적 사실감을 높이기 위해 L1, LPIPS, 적응형(Adaptive) 및 적대적(Adversarial) 손실 함수를 조합하여 사용합니다. * **신경망 구조 탐색(NAS)**: 뉴럴 아키텍처 서치 기술을 통해 모델의 깊이와 너비를 조정하며 각 효과에 가장 최적화된 효율적인 구조를 자동으로 찾아냅니다. ### 사용자 정체성 보존을 위한 PTI 기술 * **인버전 문제(Inversion Problem) 해결**: 생성 모델이 이미지를 잠재 공간(Latent Space)으로 변환할 때 사용자 고유의 이목구비나 피부색이 왜곡되는 문제를 해결하기 위해 PTI(Pivotal Tuning Inversion)를 도입했습니다. * **개별 특성 학습**: 원본 이미지의 특징을 정확히 표현할 수 있도록 모델의 가중치를 미세 조정하여, 효과가 적용된 후에도 사용자가 누구인지 명확히 인식할 수 있도록 정체성을 유지합니다. * **일관성 유지**: 단순한 필터 적용이 아니라 프레임별로 정체성을 보존하며 전체적인 스타일을 재구성하여 자연스러운 변환 결과를 도출합니다. ### MediaPipe를 통한 실시간 온디바이스 실행 * **크로스 플랫폼 최적화**: Google의 MediaPipe 프레임워크를 활용하여 Android와 iOS 모두에서 동일하게 고성능 그래프 시뮬레이션을 실행합니다. * **하드웨어 가속**: TFLite와 GPU 가속(Vulkan, OpenGL, Metal)을 통해 모바일 기기의 하드웨어 성능을 극한으로 끌어올려 실시간 카메라 스트림 처리를 지원합니다. * **효율적인 파이프라인**: 입력 영상의 전처리부터 모델 추론, 최종 렌더링까지 이어지는 전체 공정을 모바일 GPU 내에서 완결하여 지연 시간을 최소화했습니다. 이 기술적 성과는 복잡한 생성형 AI를 클라우드 서버 없이 모바일 기기 자체에서 구동할 수 있음을 증명합니다. 개발자들은 MediaPipe와 같은 오픈소스 도구를 활용하여 유사한 온디바이스 AI 기능을 설계할 수 있으며, 특히 사용자 개인정보 보호와 실시간 응답성이 중요한 서비스에서 지식 증류와 PTI 기술은 핵심적인 해결책이 될 것입니다.

google

Enabling physician-centered oversight for AMIE (새 탭에서 열림)

구글 딥마인드가 발표한 g-AMIE(guardrailed-AMIE)는 환자의 병력을 청취하고 진단 정보를 정리하는 의료용 AI 시스템으로, 의사의 최종 감독을 전제로 설계되었습니다. 이 시스템은 환자에게 직접적인 의료 조언을 제공하지 못하도록 엄격한 가드레일을 적용하되, 대신 의사가 검토하고 승인할 수 있는 상세한 임상 보고서를 생성합니다. 가상 임상 시험 결과, g-AMIE의 진단 정확도와 환자 소통 능력은 동일한 제약 조건 하의 인간 의료 전문가보다 우수한 것으로 평가되어 의료 AI의 안전한 도입 가능성을 제시했습니다. ### 의사 중심의 감독 체계와 비동기식 협업 * 의료 행위의 법적 책임과 전문성을 보장하기 위해 AI가 독자적으로 진단하는 대신, 전문의가 AI의 결과물을 검토하고 승인하는 '의사 중심 감독' 프레임워크를 채택했습니다. * AI가 환자와 대화하며 병력을 청취하는 동안 전문의는 다른 업무를 수행할 수 있으며, 이후 AI가 요약한 정보를 비동기적으로 검토함으로써 진료 효율성을 극대화합니다. * Gemini 2.0 Flash를 기반으로 구축되었으며, 의사가 진단 및 관리 계획을 수정·승인할 수 있도록 설계된 전용 웹 인터페이스인 '클리니션 콕핏(Clinician Cockpit)'을 제공합니다. ### 세분화된 멀티 에이전트 시스템 구조 * **대화 에이전트:** 일반적인 병력 청취부터 초기 진단 가설 검증을 위한 맞춤 질문, 환자의 궁금증 해소에 이르는 3단계 프로세스를 통해 고품질의 대화를 수행합니다. * **가드레일 에이전트:** AI가 환자에게 개별화된 의료 조언이나 진단을 직접 내리지 않도록 실시간으로 모든 답변을 감시하고, 규정을 준수하도록 문구를 재구성합니다. * **SOAP 노트 에이전트:** 수집된 정보를 주관적 기술(Subjective), 객관적 자료(Objective), 평가(Assessment), 계획(Plan)의 SOAP 형식으로 자동 생성하며, 의사가 환자에게 전달할 메시지 초안까지 함께 작성합니다. ### 임상 수행 능력 평가 (OSCE) 결과 * 60개의 환자 시나리오를 활용해 일반의(PCP) 및 간호사/의사 보조사(NP/PA) 그룹과 g-AMIE의 성능을 무작위 대조 시험으로 비교했습니다. * 감독 의사들과 독립적인 평가단은 g-AMIE가 도출한 차별 진단(Differential Diagnosis)과 환자 관리 계획이 인간 전문가 그룹보다 더 우수하다고 평가했습니다. * 환자 역할을 맡은 연기자들 또한 인간 의료진이 작성한 메시지보다 g-AMIE가 작성한 환자용 메시지에 대해 더 높은 선호도와 만족도를 보였습니다. g-AMIE는 AI의 데이터 처리 효율성과 전문의의 임상적 책임감을 결합한 새로운 의료 협업 모델의 이정표를 제시합니다. 비록 AI 시스템에 특화된 환경에서 도출된 결과라는 점을 고려해야 하나, 가드레일을 통해 안전성을 확보하면서도 의사의 업무 부하를 줄이는 이러한 기술적 접근은 향후 실제 진료 현장에 AI를 도입할 때 핵심적인 표준이 될 것으로 보입니다.

google

Zooming in: Efficient regional environmental risk assessment with generative AI (새 탭에서 열림)

구글 리서치(Google Research)는 물리 기반 기후 모델링과 생성형 AI를 결합하여 지역별 환경 위험을 정밀하게 예측하는 ‘동적 생성 다운스케일링(Dynamical-generative downscaling)’ 기술을 발표했습니다. 이 방법은 기존 전 지구 기후 모델의 낮은 해상도(약 100km)와 실제 지역사회에 필요한 고해상도(약 10km) 정보 사이의 간극을 혁신적으로 메워줍니다. 확률적 확산 모델(Probabilistic Diffusion Models)을 활용해 물리적 현실성을 유지하면서도 기존 방식보다 훨씬 적은 비용으로 상세한 환경 위험 평가를 가능하게 한다는 점이 핵심입니다. **기존 기후 모델링의 해상도 한계** * 전 지구 시스템 모델(Earth System Models)은 미래 기후 변화를 예측하는 가장 강력한 도구이지만, 계산 비용 문제로 인해 해상도가 약 100km 단위에 머물러 있습니다. * 도시 단위(약 10km)의 정밀한 예측은 농업 전략, 수자원 관리, 홍수 및 폭염 대비 등에 필수적이지만, 이를 위한 기존의 ‘동적 다운스케일링’ 방식은 엄청난 컴퓨팅 자원을 소모합니다. * 상대적으로 빠른 ‘통계적 다운스케일링’ 방식은 계산은 빠르지만, 복잡한 국지적 기상 패턴이나 극단적인 기상 현상을 정확히 포착하지 못하고 미래 시나리오에 대한 일반화 능력이 떨어진다는 단점이 있습니다. **물리 모델과 생성형 AI의 결합: R2D2 모델** * 연구진은 물리적 사실성과 AI의 패턴 인식 능력을 결합한 2단계 하이브리드 접근법을 제시했습니다. * 1단계(물리 기반 통과): 지역 기후 모델(RCM)을 사용해 전 지구 데이터를 중간 해상도(약 50km)로 변환합니다. 이 과정은 다양한 글로벌 모델의 출력을 공통된 물리적 격자로 정렬하여 AI가 학습하기 좋은 환경을 만듭니다. * 2단계(AI 세부 묘사): 생성형 AI 모델인 ‘R2D2(Regional Residual Diffusion-based Downscaling)’가 중간 해상도 출력에 미세한 지형 효과 등 고해상도 디테일을 추가합니다. * R2D2는 중간 해상도와 고해상도 필드 사이의 차이인 ‘잔차(Residual)’를 학습함으로써 미처 보지 못한 환경 조건에서도 뛰어난 일반화 성능을 보여줍니다. **효율적이고 신뢰할 수 있는 지역 기후 예측** * 미국 서부 지역 데이터셋(WUS-D3)을 통해 평가한 결과, 이 방식은 기존 통계적 방식 대비 미세 규모 오차를 40% 이상 줄였습니다. * 전통적인 동적 다운스케일링 방식에 비해 약 100배 빠른 속도를 자랑하며, 덕분에 수많은 기후 시나리오를 동시에 분석하여 미래의 불확실성을 더욱 포괄적으로 평가할 수 있습니다. * 특히 단 하나의 동적 다운스케일링 모델 데이터로 학습된 R2D2가 서로 다른 여러 전 지구 모델의 결과물까지 성공적으로 처리할 수 있어 학습 비용을 크게 절감했습니다. 이 기술은 기후 변화로 인한 극단적인 기상 현상에 대비해야 하는 도시 계획가와 정책 입안자들에게 매우 실용적인 도구가 될 것입니다. 저비용으로 고해상도 위험 평가가 가능해짐에 따라, 각 지역 사회는 자신의 지역에 특화된 정밀한 기후 적응 전략을 더욱 신속하고 체계적으로 수립할 수 있을 것으로 기대됩니다.

google

Google Research at Google I/O 2025 (새 탭에서 열림)

Google Research는 Google I/O 2025를 통해 수년간의 연구 성과가 실제 서비스와 제품으로 구현되는 과정을 공유하며, AI 기술이 일상과 산업 전반에 미치는 실질적인 영향을 강조했습니다. 이번 발표의 핵심은 의료, 교육, 온디바이스 AI 분야에서 Gemini 모델의 역량을 극대화하고, 모델의 효율성과 다국어 지원 능력을 획기적으로 개선하여 기술 민주화를 실현하는 데 있습니다. **MedGemma와 AMIE를 통한 의료 서비스의 진화** * **MedGemma 출시:** Gemma 3를 기반으로 한 의료 특화 오픈 모델로, 4B 및 27B 텍스트 전용 모델이 공개되었습니다. 방사선 이미지 분석 및 임상 데이터 요약에 최적화된 멀티모달 능력을 갖추고 있습니다. * **성능 및 효율성:** 소형 모델임에도 불구하고 MedQA 벤치마크에서 대형 모델과 대등한 임상 지식 및 추론 성능을 보여주며, 로컬 환경이나 Google Cloud Platform에서 유연하게 구동 가능합니다. * **AMIE의 발전:** 의료 진단 대화를 위한 연구용 AI 에이전트 AMIE에 시각 지능(Vision)이 추가되어, 의료 영상을 함께 해석하며 더욱 정확한 진단을 돕는 멀티모달 추론이 가능해졌습니다. **교육 특화 모델 LearnLM과 Gemini 2.5의 결합** * **Gemini 2.5 통합:** 교육 전문가들과 협업하여 미세 조정된 LearnLM 모델이 Gemini 2.5에 직접 통합되었습니다. 이는 학습 과학 원리를 적용하여 STEM 추론 및 퀴즈 생성 능력을 강화한 결과입니다. * **개인 맞춤형 학습 경험:** 사용자의 수업 노트나 문서를 바탕으로 맞춤형 퀴즈를 생성하고 정오답에 대한 구체적인 피드백을 제공하는 새로운 퀴즈 기능을 선보였습니다. * **글로벌 교육 현장 적용:** 가나의 고등학교 등에서 단문 및 장문 콘텐츠의 자동 평가 시스템을 시범 운영하며, 교육 기술의 확장성을 검증하고 있습니다. **다국어 지원 및 온디바이스 AI를 위한 Gemma의 혁신** * **Gemma 3의 다국어 확장:** 140개 이상의 언어를 지원하여 전 세계 사용자들이 언어 장벽 없이 LLM을 활용할 수 있도록 개선되었습니다. * **온디바이스 최적화 모델 Gemma 3n:** 단 2GB의 RAM에서도 구동 가능한 초경량 모델로, 모바일 기기에서의 대기 시간을 줄이고 에너지 소비 효율을 극대화했습니다. * **평가 지표 도입:** 모델의 교차 언어 지식 전달 능력을 정교하게 측정하기 위한 새로운 벤치마크인 'ECLeKTic'을 도입하여 기술적 신뢰도를 높였습니다. **모델 효율성 및 검색 정확도 향상** * **추론 최적화 기술:** 추측성 디코딩(Speculative decoding)과 캐스케이드(Cascades) 기술을 통해 품질 저하 없이 모델의 응답 속도와 효율성을 업계 표준 수준으로 끌어올렸습니다. * **사실성 강화:** 검색 엔진의 AI 모드 등에 적용되는 모델의 사실적 일관성을 높이기 위해 접지(Grounding) 연구를 지속하며 LLM의 신뢰성을 보장하고 있습니다. 개발자와 연구자들은 HuggingFace나 Vertex AI를 통해 공개된 MedGemma와 Gemma 3n 모델을 즉시 활용해 볼 수 있습니다. 특히 특정 산업군(의료, 교육)에 특화된 애플리케이션을 구축할 때, 성능과 효율성 사이의 균형이 검증된 이번 오픈 모델들을 베이스라인으로 활용하는 것을 추천합니다.

google

Amplify Initiative: Localized data for globalized AI (새 탭에서 열림)

구글 리서치가 발표한 ‘엠플리파이 이니셔티브(Amplify Initiative)’는 전 세계의 다양한 언어와 문화를 반영한 데이터를 수집하여 AI의 지역적 한계를 극복하려는 개방형 커뮤니티 기반 데이터 플랫폼입니다. 이 프로젝트는 현지 전문가들과의 협업을 통해 각 지역의 특수한 요구사항과 가치관이 담긴 고품질 데이터를 구축함으로써, 특정 지역에 치우치지 않는 책임감 있는 글로벌 AI 생태계를 조성하는 것을 목표로 합니다. 특히 사하라 이남 아프리카에서의 성공적인 파일럿 사례를 통해 데이터 저자권 인정과 보상을 결합한 지속 가능한 데이터 수집 모델의 가능성을 증명했습니다. **엠플리파이 이니셔티브의 핵심 가치** * **참여형 데이터 공동 생성:** 지역 연구자들과 커뮤니티가 직접 데이터 요구사항을 정의하고, 현지 문제를 해결하는 데 필요한 구조화된 데이터셋을 함께 만듭니다. * **글로벌 사우스(Global South)를 위한 개방형 데이터:** 수집된 다국어 데이터셋은 미세 조정(Fine-tuning) 및 평가용으로 공개되어, 저개발 국가의 연구자들이 현지 맞춤형 AI 도구를 개발할 수 있도록 지원합니다. * **기여자 인식 및 보상:** 데이터 생성에 참여한 전문가들에게 저자권 부여, 전문 자격증 제공, 연구 기여 인정 등의 보상 체계를 운영하여 참여 동기를 강화합니다. **사하라 이남 아프리카 파일럿 프로젝트 성과** * **전문가 협업 네트워크:** 우간다 마케레레 대학교 AI 연구소와 협력하여 가나, 케냐, 말라위, 니제르 등 5개국에서 건강, 교육, 금융 분야의 전문가 259명을 온보딩했습니다. * **대규모 다국어 데이터셋 구축:** 155명의 전문가가 직접 참여하여 7개 언어로 작성된 8,091개의 주석 달린 적대적 쿼리(Adversarial queries) 데이터셋을 생성했습니다. * **현지 맞춤형 콘텐츠:** 스와힐리어 기반의 미분별 정보 벤치마킹 데이터나 인도의 금융 문해력이 낮은 사용자를 위한 용어 단순화 데이터 등 실질적인 지역 난제 해결에 초점을 맞췄습니다. **데이터 수집 및 검증 프로세스** * **도메인 전문가 기반 접근:** 보건 의료 종사자나 교사와 같이 특정 분야의 전문 지식을 갖춘 인력을 선발하여 온라인에 존재하지 않는 심층적인 지식을 캡처합니다. * **전용 안드로이드 앱 활용:** 프라이버시가 보호되는 전용 앱을 통해 교육 자료를 배포하고, 책임감 있는 AI 실천 방안과 편향성 방지 교육을 실시합니다. * **자동화된 품질 관리:** 앱 내 자동 피드백 시스템을 통해 중복되거나 의미론적으로 유사한 쿼리의 생성을 방지하고, 데이터 수집 목표와의 정렬을 실시간으로 확인합니다. * **정교한 주석(Annotation) 작업:** 전문가가 자신의 도메인에 특화된 테마와 주제별로 각 쿼리에 상세한 주석을 달아 데이터의 구조적 완성도를 높입니다. 엠플리파이 이니셔티브는 아프리카에서의 성과를 바탕으로 향후 브라질과 인도 등으로 범위를 확장하여, 온라인에서 접근하기 어려운 현지 지식을 데이터화하는 혁신적인 방법론을 지속적으로 발굴할 계획입니다. AI 모델의 성능만큼이나 데이터의 다양성과 대표성이 중요한 시점에서, 이러한 커뮤니티 중심의 데이터 구축 방식은 진정한 의미의 '글로벌 AI'를 실현하는 필수적인 기반이 될 것입니다.

google

Geospatial Reasoning: Unlocking insights with generative AI and multiple foundation models (새 탭에서 열림)

구글 리서치는 생성형 AI와 다중 파운데이션 모델을 결합하여 복잡한 지리 공간 문제를 해결하는 '지형 공간 추론(Geospatial Reasoning)' 연구 프레임워크를 공개했습니다. 이 시스템은 고해상도 원격 탐사 데이터, 인구 역학, 이동 경로 모델을 통합하여 전문 지식 없이도 자연어로 고차원적인 지리적 분석 결과를 도출할 수 있게 지원합니다. 이를 통해 재난 대응, 도시 계획, 기후 회복력 강화 등 다양한 분야에서 데이터 기반의 의사결정 속도를 획기적으로 높일 것으로 기대됩니다. **지형 공간 파운데이션 모델의 기술적 토대** * **원격 탐사 모델의 아키텍처**: Masked Autoencoders, SigLIP, MaMMUT, OWL-ViT 등 검증된 시각-언어 모델 구조를 원격 탐사 영역에 맞게 최적화하여 적용했습니다. * **다양한 데이터 학습**: 텍스트 설명과 바운딩 박스(Bounding Box) 주석이 포함된 고해상도 위성 및 항공 이미지를 대규모로 학습하여, 이미지와 객체에 대한 정교한 임베딩을 생성합니다. * **자연어 기반 제로샷(Zero-shot) 분류**: 별도의 추가 학습 없이 "태양광 패널이 있는 주거용 건물"이나 "통행 불가능한 도로"와 같은 자연어 검색만으로 특정 지형이나 시설을 찾아낼 수 있습니다. * **성능 검증 및 실전 투입**: 분류, 세그멘테이션, 객체 탐지 벤치마크에서 SOTA(최고 수준) 성능을 기록했으며, 구글의 실제 재난 대응 및 도시/농업 경관 매핑 프로젝트에서 그 효용성을 입증했습니다. **데이터 통합과 에이전트 기반 추론 프레임워크** * **다중 모델 결합**: 인구 행동과 환경의 상호작용을 분석하는 '인구 역학 파운데이션 모델(PDFM)'과 궤적 기반의 '모빌리티 모델'을 통합하여 다각적인 분석이 가능합니다. * **LLM 기반 에이전트 워크플로우**: Gemini와 같은 거대언어모델(LLM)이 복잡한 지리 공간 데이터를 관리하고 조율하는 에이전트 역할을 수행하여, 복잡한 분석 과정을 자동화합니다. * **인구 역학 데이터의 글로벌 확장**: 기존 미국 중심의 PDFM 데이터를 영국, 호주, 일본, 캐나다, 말라위 등으로 확장하여 전 세계적인 분석 기반을 마련 중입니다. * **산업 파트너십**: Airbus, Maxar, Planet Labs 등 글로벌 위성 데이터 기업들과 협력하여 실무 환경에서의 테스트를 진행하고 있습니다. 현재 구글은 '신뢰할 수 있는 테스터 프로그램'을 통해 해당 모델들에 대한 접근권을 제공하고 있습니다. 지리 공간 데이터 분석의 높은 진입 장벽을 낮추고자 하는 조직은 구글 리서치가 제공하는 파운데이션 모델 임베딩을 활용해 독자적인 분석 모델을 고도화하거나, 자연어 기반의 지형 추론 워크플로우를 실험적으로 도입해 보는 것을 권장합니다.