Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR (새 탭에서 열림)
구글 리서치는 의료용 생성형 AI 모델인 MedGemma의 기능을 대폭 강화한 'MedGemma 1.5 4B'와 의료 전문 음성 인식 모델 'MedASR'을 새롭게 공개했습니다. 이번 업데이트는 CT, MRI 등 고차원 의료 영상 분석과 시계열 데이터 처리 능력을 크게 향상시켜 개발자들이 보다 정밀한 의료 보조 애플리케이션을 구축할 수 있도록 돕습니다. 오픈 모델로 제공되는 이 기술들은 연구 및 상업적 목적으로 자유롭게 활용 가능하며, 의료 현장의 디지털 전환을 가속화하는 핵심 도구가 될 것으로 기대됩니다. **MedGemma 1.5의 고차원 의료 영상 처리 역량** * 기존 2차원 이미지를 넘어 CT와 MRI 같은 3차원 볼륨 데이터, 그리고 대용량 병리 조직 슬라이드(Whole-slide histopathology) 분석 기능을 새롭게 지원합니다. * 여러 장의 이미지 슬라이드나 패치를 입력값으로 받아 복합적인 추론이 가능하며, 내부 벤치마크 결과 CT 관련 질환 분류 정확도는 기존 대비 3%, MRI는 14% 향상되었습니다. * 흉부 엑스레이의 시계열 검토(Longitudinal review) 기능을 통해 환자의 과거와 현재 상태 변화를 추적하거나, 특정 해부학적 특징의 위치를 파악하는 로컬라이제이션 기능이 강화되었습니다. * 의료 실험 보고서와 같은 비정형 문서에서 구조화된 데이터를 추출하는 의료 문서 이해 능력이 개선되어 데이터 관리 효율성을 높였습니다. **의료 음성 인식 모델 MedASR과 개발 생태계** * MedASR은 의료 전문 용어와 진단 받아쓰기에 최적화된 자동 음성 인식 모델로, 의료진의 음성을 텍스트로 변환하여 MedGemma의 추론 엔진과 즉시 연동할 수 있습니다. * MedGemma 1.5 4B 모델은 오프라인에서도 실행 가능한 효율적인 크기로 설계되어, 연산 자원이 제한된 환경에서도 높은 성능을 유지하며 유연하게 배포할 수 있습니다. * 구글은 10만 달러 규모의 상금을 건 'MedGemma Impact Challenge' 해커톤을 Kaggle에서 개최하여 전 세계 개발자들이 의료 AI를 창의적으로 활용할 수 있도록 독려하고 있습니다. * 모든 모델은 Hugging Face와 Google Cloud Vertex AI를 통해 제공되어, 개발자가 자신의 유스케이스에 맞춰 모델을 미세 조정하고 대규모 애플리케이션으로 확장하기 용이합니다. 의료 AI 애플리케이션을 개발하려는 엔지니어는 MedGemma 1.5 4B를 시작점으로 삼아 로컬 환경에서 프로토타입을 구축하는 것이 효율적입니다. 특히 MedASR을 활용해 의료진의 구두 기록을 텍스트화하고 이를 MedGemma의 다중 모달 분석 기능과 결합한다면, 실시간 진단 보조 및 임상 의사 결정 지원 분야에서 강력한 경쟁력을 확보할 수 있을 것입니다.