gemma-3

2 개의 포스트

네이버 TV (새 탭에서 열림)

네이버는 복잡한 구조의 PDF 문서를 LLM이 정확하게 이해할 수 있도록 돕는 전용 파서인 'PaLADIN'을 개발했습니다. PaLADIN은 표, 차트, 텍스트가 혼재된 문서의 레이아웃을 정밀하게 분석하여 LLM이 처리하기 최적화된 데이터 형식으로 변환하는 데 중점을 둡니다. 이를 통해 증권사 리포트 요약과 같은 전문적인 영역에서 데이터 추출의 정확도를 높이고 AI 서비스의 신뢰성을 확보했습니다. **PaLADIN의 아키텍처와 핵심 기술 스택** * **레이아웃 분석 (Doclayout-Yolo):** 문서 내의 텍스트 영역, 표, 차트 등 각 요소의 위치를 파악하는 'Element-Detector' 역할을 수행하여 문서의 구조를 정의합니다. * **표 및 차트 추출 모델:** 표 구조 분석을 위해 `nemoretriever-table-structure-v1`을 사용하며, 시각적 정보가 중요한 차트 해석에는 `google/gemma3-27b-it` 모델을 활용해 데이터를 추출합니다. * **고성능 OCR 결합:** 네이버의 파파고 OCR 기술을 통합하여 문서 내 텍스트 정보를 정확하게 디지털화하며, 수치와 문자가 섞인 복잡한 본문도 정밀하게 복원합니다. * **파이프라인 최적화:** NVIDIA의 `nv-ingest` 아키텍처를 기반으로 설계를 고도화하여 대량의 PDF 문서를 신속하게 처리할 수 있는 추론 속도를 확보했습니다. **성능 평가 및 서비스 적용 사례** * **정밀한 성능 검증:** 단순 텍스트 추출을 넘어 표 구조 복원 능력과 파싱 속도를 다각도로 측정했으며, 기존 파서 대비 우수한 정확도를 입증했습니다. * **증권사 리포트 요약 서비스:** 수치와 그래프가 많은 증권 리포트를 분석하는 'AIB 증권사 리포트' 서비스에 적용되어, LLM이 잘못된 정보를 생성하는 할루시네이션(환각) 현상을 최소화했습니다. * **LLM as a Judge:** 요약 결과의 품질을 평가하기 위해 LLM을 평가자로 활용하는 방식을 도입, 서비스 적용 시의 실효성을 객관적으로 검토했습니다. **향후 개선 방향** * **정밀도 고도화:** 표 내부의 미세한 셀 좌표 인식 오류를 개선하고, 다양한 형태의 차트에서 데이터를 더 정확하게 뽑아낼 수 있도록 모델을 개선할 예정입니다. * **한국어 최적화:** 국내 사용자 환경에 맞춰 한국어 특화 모델의 성능을 지속적으로 강화하여 문서 이해의 완성도를 높여갈 계획입니다. PDF 내의 비정형 데이터를 정형화된 구조로 변환하는 것은 RAG(검색 증강 생성) 시스템의 성능을 결정짓는 핵심 요소입니다. 복잡한 표나 차트가 포함된 전문 문서를 다루는 서비스를 구축한다면, 단순한 텍스트 추출기를 넘어 레이아웃 분석 모델이 통합된 PaLADIN과 같은 전문 파이프라인 도입을 고려해볼 수 있습니다.

MedGemma: 의료 AI 개발 (새 탭에서 열림)

구글 리서치가 발표한 MedGemma는 의료 AI 개발을 가속화하기 위해 설계된 오픈 모델 컬렉션으로, 높은 성능과 효율성, 개인정보 보호를 동시에 제공합니다. 이번 발표에서는 27B 멀티모달 모델과 경량 인코더인 MedSigLIP이 추가되어 복잡한 의료 기록 해석부터 영상 진단 지원까지 폭넓은 활용이 가능해졌습니다. MedGemma는 기존의 고성능 대형 모델에 필적하는 의학적 지식 능력을 갖추면서도 단일 GPU나 모바일 기기에서도 구동할 수 있는 최적화된 설계를 자랑합니다. **MedGemma 모델군의 주요 구성과 성능** * **MedGemma 4B 멀티모달:** 80억 파라미터 미만의 소형 모델 중 최고 수준인 MedQA 64.4%를 기록했습니다. 특히 흉부 X선 보고서 생성 실험에서 전문의로부터 81%의 보고서가 실제 환자 관리에 지장이 없을 정도로 정확하다는 평가를 받았습니다. * **MedGemma 27B 모델:** 텍스트 전용 및 멀티모달 변체가 포함되며, MedQA에서 87.7%의 높은 점수를 기록했습니다. 이는 선도적인 오픈 모델인 DeepSeek R1에 근접한 성능이지만, 추론 비용은 약 10분의 1 수준에 불과합니다. * **복합 데이터 처리:** 텍스트와 이미지는 물론, 장기적인 전자 건강 기록(EHR) 데이터까지 해석할 수 있어 복잡한 임상 상황에 대한 통찰을 제공합니다. **범용성과 전문성을 결합한 학습 방식** * **Gemma 3 기반 아키텍처:** 최신 Gemma 3 모델을 의료 데이터로 튜닝하여 의학적 전문성을 확보했습니다. 이 과정에서 일반적인 명령어 수행 능력과 다국어 성능을 유지하여 의료와 비의료 정보가 섞인 작업도 원활히 수행합니다. * **의료 최적화 인코더 결합:** 의료 영상에 특화된 MedSigLIP 인코더를 결합하여 시각적 질의응답(VQA) 및 보고서 생성 업무에서 정밀한 분석이 가능합니다. * **높은 유연성:** 개발자가 특정 의료 목적에 맞춰 미세 조정(Fine-tuning)하기 용이하며, 실제로 흉부 X선 보고서 생성 작업에서 SOTA(최고 수준) 성능인 RadGraph F1 30.3점을 달성했습니다. **경량 의료 영상 인코더 MedSigLIP** * **초경량 설계:** 4억 개(400M)의 파라미터로 구성된 효율적인 인코더로, 영상 분류, 검색, 임베딩 기반 작업에 최적화되어 있습니다. * **다양한 의료 모달리티 학습:** 흉부 X선, 조직 병리, 피부과, 안저 영상 등 광범위한 데이터를 학습하여 각 의료 분야의 미세한 특징을 정확히 포착합니다. * **범용성 보존:** 의료 영상뿐만 아니라 기존 SigLIP이 가진 자연물 이미지에 대한 성능도 유지하여 다양한 시각적 맥락을 이해할 수 있습니다. 의료 AI 연구자와 개발자는 프로젝트의 성격에 따라 모델을 전략적으로 선택할 수 있습니다. 자유로운 텍스트 생성이 필요한 보고서 작성이나 질의응답에는 MedGemma 모델군이 적합하며, 영상 분류나 데이터 검색과 같은 구조화된 작업에는 MedSigLIP이 권장됩니다. 특히 4B 모델과 MedSigLIP은 모바일 하드웨어에서도 구동이 가능하므로, 개인정보를 보호하면서 현장에서 즉시 활용 가능한 온디바이스 의료 AI 솔루션을 구축하는 데 강력한 토대가 될 것입니다.