vertex-ai

4 개의 포스트

MedGemma 1.5를 (새 탭에서 열림)

구글 리서치는 의료용 생성형 AI 모델인 MedGemma의 기능을 대폭 강화한 'MedGemma 1.5 4B'와 의료 전문 음성 인식 모델 'MedASR'을 새롭게 공개했습니다. 이번 업데이트는 CT, MRI 등 고차원 의료 영상 분석과 시계열 데이터 처리 능력을 크게 향상시켜 개발자들이 보다 정밀한 의료 보조 애플리케이션을 구축할 수 있도록 돕습니다. 오픈 모델로 제공되는 이 기술들은 연구 및 상업적 목적으로 자유롭게 활용 가능하며, 의료 현장의 디지털 전환을 가속화하는 핵심 도구가 될 것으로 기대됩니다. **MedGemma 1.5의 고차원 의료 영상 처리 역량** * 기존 2차원 이미지를 넘어 CT와 MRI 같은 3차원 볼륨 데이터, 그리고 대용량 병리 조직 슬라이드(Whole-slide histopathology) 분석 기능을 새롭게 지원합니다. * 여러 장의 이미지 슬라이드나 패치를 입력값으로 받아 복합적인 추론이 가능하며, 내부 벤치마크 결과 CT 관련 질환 분류 정확도는 기존 대비 3%, MRI는 14% 향상되었습니다. * 흉부 엑스레이의 시계열 검토(Longitudinal review) 기능을 통해 환자의 과거와 현재 상태 변화를 추적하거나, 특정 해부학적 특징의 위치를 파악하는 로컬라이제이션 기능이 강화되었습니다. * 의료 실험 보고서와 같은 비정형 문서에서 구조화된 데이터를 추출하는 의료 문서 이해 능력이 개선되어 데이터 관리 효율성을 높였습니다. **의료 음성 인식 모델 MedASR과 개발 생태계** * MedASR은 의료 전문 용어와 진단 받아쓰기에 최적화된 자동 음성 인식 모델로, 의료진의 음성을 텍스트로 변환하여 MedGemma의 추론 엔진과 즉시 연동할 수 있습니다. * MedGemma 1.5 4B 모델은 오프라인에서도 실행 가능한 효율적인 크기로 설계되어, 연산 자원이 제한된 환경에서도 높은 성능을 유지하며 유연하게 배포할 수 있습니다. * 구글은 10만 달러 규모의 상금을 건 'MedGemma Impact Challenge' 해커톤을 Kaggle에서 개최하여 전 세계 개발자들이 의료 AI를 창의적으로 활용할 수 있도록 독려하고 있습니다. * 모든 모델은 Hugging Face와 Google Cloud Vertex AI를 통해 제공되어, 개발자가 자신의 유스케이스에 맞춰 모델을 미세 조정하고 대규모 애플리케이션으로 확장하기 용이합니다. 의료 AI 애플리케이션을 개발하려는 엔지니어는 MedGemma 1.5 4B를 시작점으로 삼아 로컬 환경에서 프로토타입을 구축하는 것이 효율적입니다. 특히 MedASR을 활용해 의료진의 구두 기록을 텍스트화하고 이를 MedGemma의 다중 모달 분석 기능과 결합한다면, 실시간 진단 보조 및 임상 의사 결정 지원 분야에서 강력한 경쟁력을 확보할 수 있을 것입니다.

구글 리서치 20 (새 탭에서 열림)

2025년 구글 리서치는 기초 연구가 실제 제품과 사회적 가치로 연결되는 '혁신의 마법 주기(Magic Cycle)'를 가속화하며 생성형 AI, 과학적 발견, 양자 컴퓨팅 분야에서 기념비적인 성과를 거두었습니다. 제미나이 3(Gemini 3)로 대표되는 모델의 효율성과 사실성 개선은 물론, 스스로 도구를 사용하는 에이전트 모델과 질병 치료를 위한 바이오 AI 기술을 통해 기술적 한계를 한 단계 더 확장했습니다. 이러한 연구 결과는 단순한 기술 진보를 넘어 기후 변화 대응과 교육 등 인류 공통의 과제를 해결하는 데 실질적인 기여를 하고 있습니다. **생성형 모델의 효율성 및 신뢰성 고도화** * **추론 효율성 최적화:** '투기적 디코딩(Speculative decoding)'과 가상 머신 작업 수명을 예측하는 'LAVA' 알고리즘을 도입하여 대규모 클라우드 데이터 센터의 리소스 효율성과 비용 절감을 실현했습니다. * **사실성(Factuality) 강화:** 2021년부터 이어진 LLM 사실성 연구를 집대성하여 제미나이 3를 역대 가장 사실적인 모델로 구축했으며, FACTS 벤치마크 등을 통해 모델의 정보 근거 제시 능력을 입증했습니다. * **다국어 및 다문화 대응:** 오픈 모델인 '젬마(Gemma)'를 140개 이상의 언어로 확장하고, 문화적 맥락을 이해하는 'TUNA' 분류 체계와 'Amplify' 이니셔티브를 통해 글로벌 사용자에게 최적화된 AI 경험을 제공합니다. **생성형 UI와 지능형 에이전트의 등장** * **인터랙티브 인터페이스:** 사용자의 프롬프트에 따라 웹페이지, 게임, 도구 등의 시각적 인터페이스를 실시간으로 생성하는 '생성형 UI'를 제미나이 3에 도입했습니다. * **에이전트 기능(Agentic AI):** 단순 응답을 넘어 복잡한 작업을 수행하는 '프로젝트 자비스(Project Jarvis)'와 웹 브라우징 에이전트를 통해 사용자의 일상 업무를 자동화하는 능력을 선보였습니다. * **코드 및 추론 능력:** 고도화된 추론 아키텍처를 통해 소프트웨어 엔지니어링 성능을 비약적으로 향상시켰으며, 이는 구글 내부 코드의 25% 이상이 AI에 의해 생성되는 결과로 이어졌습니다. **과학적 혁신과 헬스케어의 진보** * **생물학적 발견:** 단백질 구조 예측을 넘어 분자 상호작용을 모델링하는 'AlphaFold 3'와 새로운 단백질을 설계하는 'AlphaProteo'를 통해 신약 개발과 질병 이해의 속도를 높였습니다. * **의료 특화 모델:** 'Med-Gemini'와 같은 의료 전용 모델을 개발하여 흉부 엑스레이 분석, 유전체 데이터 해석 등 전문적인 의료 진단 보조 도구로서의 가능성을 확인했습니다. * **뇌 과학 연구:** 하버드 대학과의 협력을 통해 인간 대뇌 피질의 시냅스 수준 지도를 제작하는 등 신경과학 분야에서도 전례 없는 성과를 냈습니다. **양자 컴퓨팅과 지구 과학을 통한 미래 대비** * **양자 우위와 실용화:** 양자 오류 정정 기술의 혁신을 통해 실제 문제 해결에 활용 가능한 양자 컴퓨팅 시대를 앞당겼습니다. * **기후 및 환경 대응:** 산불을 실시간으로 추적하는 'FireSat' 위성 네트워크와 비행운(Contrails) 감소 연구 등을 통해 기후 위기 대응을 위한 구체적인 AI 솔루션을 제시했습니다. * **책임감 있는 AI:** 콘텐츠의 출처를 밝히는 'SynthID' 워터마킹 기술을 텍스트와 비디오로 확대 적용하여 AI 생성 콘텐츠의 투명성과 안전성을 강화했습니다. 구글의 2025년 성과는 AI가 단순한 보조 도구를 넘어 과학 연구의 속도를 높이고 복잡한 사회 문제를 해결하는 강력한 에이전트로 진화했음을 보여줍니다. 기업과 연구자는 이제 단순한 챗봇 구현을 넘어, 특정 도메인에 특화된 에이전트 모델과 생성형 UI를 활용한 새로운 사용자 경험 설계에 집중해야 할 시점입니다.

혁신의 조명: (새 탭에서 열림)

구글 리서치는 아프리카 전역의 데이터 과학 커뮤니티와 협력하여 현지의 시급한 의료 과제를 해결하기 위한 'Data Science for Health Ideathon'을 개최했습니다. 이 대회는 MedGemma, MedSigLIP 등 구글의 개방형 의료 AI 모델을 활용해 자궁경부암 검진, 모성 건강 지원 등 아프리카 보건 시스템에 실질적인 변화를 가져올 수 있는 솔루션을 개발하는 데 중점을 두었습니다. 최종 선정된 팀들은 구글의 기술 자원과 전문가 멘토링을 통해 아이디어를 구체적인 프로토타입으로 구현하며 지역 맞춤형 AI 혁신의 가능성을 증명했습니다. **협력적 의료 혁신과 기술적 기반** * 르완다 키갈리에서 열린 'Deep Learning Indaba' 컨퍼런스를 기점으로 아프리카 AI 및 의료 커뮤니티 간의 역량 강화를 목표로 시작되었습니다. * 참가자들에게는 MedGemma(의료 LLM), TxGemma(치료제 개발 모델), MedSigLIP(의료 영상 분석 모델) 등 구글의 최신 보건 AI 모델이 제공되었습니다. * 프로젝트 수행을 위해 Google Cloud Vertex AI 컴퓨팅 크레딧과 상세 기술 문서, 구글 DeepMind 연구진의 기술 멘토링이 단계별로 지원되었습니다. **자궁경부암 및 모성 건강을 위한 AI 솔루션** * **Dawa Health (1위):** WhatsApp으로 업로드된 질확대경 영상을 MedSigLIP 기반 분류기로 실시간 분석하여 암 징후를 식별합니다. 여기에 Gemini RAG(검색 증강 생성)를 결합해 세계보건기구(WHO)와 잠비아의 프로토콜에 따른 임상 가이드를 제공합니다. * **Solver (2위):** 자궁경부 세포진 검사 자동화를 위해 MedGemma-27B-IT 모델을 LoRA(Low-Rank Adaptation) 방식으로 파인튜닝했습니다. FastAPI 기반의 웹 앱을 통해 병리 의사에게 주석이 달린 이미지와 임상 권고안을 출력합니다. * **Mkunga (3위):** 모성 건강 상담을 위해 MedGemma와 Gemini를 활용한 AI 콜센터를 구축했습니다. Vertex AI의 TTS/STT(음성 합성 및 인식) 기술을 통해 스와힐리어로 저비용 원격 진료 서비스를 제공합니다. **열악한 통신 환경을 고려한 기술적 접근** * **HexAI (최우수 PoC):** 인터넷 연결이 제한된 환경에서도 작동할 수 있는 오프라인 우선(Offline-first) 모바일 앱 'DermaDetect'를 개발했습니다. * 온디바이스(On-device) 형태의 MedSigLIP 모델을 통해 커뮤니티 건강 요원들이 현장에서 피부 질환을 즉시 분류할 수 있도록 설계되었습니다. * 고도화된 분석이 필요한 경우에만 클라우드 기반의 MedGemma와 연결하는 하이브리드 구조를 채택하여 데이터 플라이휠을 구축했습니다. 이번 사례는 고성능 의료 AI 모델이 오픈소스로 제공될 때, 현지 개발자들이 지역적 특수성과 인프라 한계를 극복하며 얼마나 창의적인 솔루션을 구축할 수 있는지 잘 보여줍니다. 특히 인프라가 부족한 지역에서는 RAG를 통한 신뢰성 확보나 온디바이스 모델링을 통한 오프라인 지원 기술이 의료 격차를 해소하는 핵심적인 전략이 될 수 있음을 시사합니다.

검색 증강 생성에 대한 (새 탭에서 열림)

검색 증강 생성(RAG) 시스템의 성능을 최적화하기 위해 단순히 질문과 '관련된' 정보를 찾는 것을 넘어, 답변을 내기에 '충분한 문맥(Sufficient Context)'이 제공되었는지를 판단하는 새로운 관점을 제시합니다. 연구팀은 문맥의 충분성을 측정하는 자동 평가 도구(autorater)를 개발하여 RAG 시스템의 실패 원인을 분석하고 할루시네이션(환각)을 줄일 수 있는 방법론을 입증했습니다. 이를 통해 최신 대규모 언어 모델(LLM)이 충분한 정보 환경에서 어떻게 작동하는지 규명하고, 실제 서비스인 Vertex AI RAG 엔진에 해당 기술을 적용하여 정확도를 개선했습니다. **충분한 문맥의 정의와 필요성** * **관련성 vs 충분성**: 기존 RAG 연구는 질문과 문맥의 '관련성'에 집중했으나, 관련성이 높더라도 정답을 도출하기 위한 핵심 정보가 빠져 있으면 LLM은 잘못된 답변을 내놓을 위험이 큽니다. * **충분한 문맥**: 질문에 대해 확정적인 답변을 제공하는 데 필요한 모든 정보가 포함된 상태를 의미합니다. * **불충분한 문맥**: 질문과 관련은 있지만 정보가 불완전하거나, 결론을 내릴 수 없거나, 모순되는 정보가 포함된 경우를 말합니다. **LLM 기반 자동 평가 도구(Autorater)의 설계 및 성능** * **평가 메커니즘**: 질문과 검색된 문맥 쌍을 입력받아 해당 문맥이 답변에 충분한지 여부를 'True/False'로 분류하며, 체인 오브 쏘트(CoT) 및 1-샷 프롬프팅을 통해 성능을 최적화했습니다. * **높은 분류 정확도**: Gemini 1.5 Pro를 활용한 이 방식은 별도의 미세 조정 없이도 전문가가 직접 레이블링한 데이터와 비교했을 때 93% 이상의 높은 일치율을 보였습니다. * **기존 방식과의 비교**: 정답 키워드 포함 여부를 확인하는 방식이나 기존의 자연어 추론(NLI) 모델 기반 방식보다 Gemini를 활용한 프롬프팅 방식이 뛰어난 문맥 이해력을 바탕으로 더 정교한 판단을 내리는 것으로 나타났습니다. * **효율적 대안**: 계산 자원의 효율성이 필요한 경우, Gemini보다는 다소 성능이 낮지만 미세 조정된 FLAMe(PaLM 24B 기반) 모델이 대안이 될 수 있음을 확인했습니다. **RAG 시스템 성능 분석 및 실무적 통찰** * **SOTA 모델의 특성**: Gemini, GPT, Claude와 같은 최신 모델들은 충분한 문맥이 주어지면 정답률이 매우 높지만, 문맥이 불충분할 때 "모른다"고 답하며 할루시네이션을 방지하는 능력에는 차이가 있었습니다. * **성능 최적화 도구**: 이번 연구의 개념은 Google Cloud Vertex AI RAG 엔진의 'LLM Re-Ranker' 기능으로 구현되었습니다. 이는 검색된 스니펫을 질문과의 관련성 및 충분성에 따라 재정렬하여 nDCG와 같은 검색 지표 및 전체 시스템 정확도를 높입니다. * **실패 분석**: RAG 시스템의 실패는 단순히 검색 품질의 문제뿐만 아니라, 충분한 정보가 있음에도 모델이 이를 제대로 추출하지 못하거나 불충분한 정보에서 억지로 답을 지어내는 과정에서 발생함을 확인했습니다. RAG 시스템의 신뢰도를 높이기 위해서는 단순히 더 많은 문서를 검색하는 것보다, 검색된 결과가 질문에 답하기에 '충분한지'를 먼저 검증하는 단계가 필수적입니다. 개발자는 고성능 LLM을 활용한 자동 평가 단계를 파이프라인에 추가하거나, 리랭커(Re-ranker)를 도입하여 문맥의 질을 관리함으로써 할루시네이션을 획기적으로 줄일 수 있습니다.