구글 리서치가 발표한 MedGemma는 의료 AI 개발을 가속화하기 위해 설계된 오픈 모델 컬렉션으로, 높은 성능과 효율성, 개인정보 보호를 동시에 제공합니다. 이번 발표에서는 27B 멀티모달 모델과 경량 인코더인 MedSigLIP이 추가되어 복잡한 의료 기록 해석부터 영상 진단 지원까지 폭넓은 활용이 가능해졌습니다. MedGemma는 기존의 고성능 대형 모델에 필적하는 의학적 지식 능력을 갖추면서도 단일 GPU나 모바일 기기에서도 구동할 수 있는 최적화된 설계를 자랑합니다.

MedGemma 모델군의 주요 구성과 성능

MedGemma 4B 멀티모달: 80억 파라미터 미만의 소형 모델 중 최고 수준인 MedQA 64.4%를 기록했습니다. 특히 흉부 X선 보고서 생성 실험에서 전문의로부터 81%의 보고서가 실제 환자 관리에 지장이 없을 정도로 정확하다는 평가를 받았습니다.
MedGemma 27B 모델: 텍스트 전용 및 멀티모달 변체가 포함되며, MedQA에서 87.7%의 높은 점수를 기록했습니다. 이는 선도적인 오픈 모델인 DeepSeek R1에 근접한 성능이지만, 추론 비용은 약 10분의 1 수준에 불과합니다.
복합 데이터 처리: 텍스트와 이미지는 물론, 장기적인 전자 건강 기록(EHR) 데이터까지 해석할 수 있어 복잡한 임상 상황에 대한 통찰을 제공합니다.

범용성과 전문성을 결합한 학습 방식

Gemma 3 기반 아키텍처: 최신 Gemma 3 모델을 의료 데이터로 튜닝하여 의학적 전문성을 확보했습니다. 이 과정에서 일반적인 명령어 수행 능력과 다국어 성능을 유지하여 의료와 비의료 정보가 섞인 작업도 원활히 수행합니다.
의료 최적화 인코더 결합: 의료 영상에 특화된 MedSigLIP 인코더를 결합하여 시각적 질의응답(VQA) 및 보고서 생성 업무에서 정밀한 분석이 가능합니다.
높은 유연성: 개발자가 특정 의료 목적에 맞춰 미세 조정(Fine-tuning)하기 용이하며, 실제로 흉부 X선 보고서 생성 작업에서 SOTA(최고 수준) 성능인 RadGraph F1 30.3점을 달성했습니다.

경량 의료 영상 인코더 MedSigLIP

초경량 설계: 4억 개(400M)의 파라미터로 구성된 효율적인 인코더로, 영상 분류, 검색, 임베딩 기반 작업에 최적화되어 있습니다.
다양한 의료 모달리티 학습: 흉부 X선, 조직 병리, 피부과, 안저 영상 등 광범위한 데이터를 학습하여 각 의료 분야의 미세한 특징을 정확히 포착합니다.
범용성 보존: 의료 영상뿐만 아니라 기존 SigLIP이 가진 자연물 이미지에 대한 성능도 유지하여 다양한 시각적 맥락을 이해할 수 있습니다.

의료 AI 연구자와 개발자는 프로젝트의 성격에 따라 모델을 전략적으로 선택할 수 있습니다. 자유로운 텍스트 생성이 필요한 보고서 작성이나 질의응답에는 MedGemma 모델군이 적합하며, 영상 분류나 데이터 검색과 같은 구조화된 작업에는 MedSigLIP이 권장됩니다. 특히 4B 모델과 MedSigLIP은 모바일 하드웨어에서도 구동이 가능하므로, 개인정보를 보호하면서 현장에서 즉시 활용 가능한 온디바이스 의료 AI 솔루션을 구축하는 데 강력한 토대가 될 것입니다.