ocr

2 개의 포스트

“생각하고 답변하는” 카카오의 하이브리드 멀티모달 언어모델, Kanana-v-4b-hybrid 개발기 - tech.kakao.com (새 탭에서 열림)

카카오가 개발한 'Kanana-v-4b-hybrid'는 단순한 이미지 인식을 넘어 논리적 추론과 자기 점검 기능을 갖춘 하이브리드 멀티모달 언어모델입니다. 이 모델은 단일 시스템 내에서 일상적인 대화와 복잡한 시각적 추론을 동시에 수행하며, 특히 한국어 특유의 섬세한 제약 조건을 정확히 이해하고 처리하는 데 최적화되어 있습니다. 이를 통해 한국어 기반의 검정고시 및 수능 문항 평가인 KoNET에서 92.8점이라는 높은 성적을 거두며 한국형 AI의 새로운 가능성을 입증했습니다. ### 하이브리드 대응을 위한 단일 모델 구조 * 직관적 응답이 필요한 일반 대화와 논리적 단계가 필요한 추론 모델을 분리하지 않고 하나의 모델로 통합했습니다. * 별도의 라우팅(Routing) 시스템 없이도 한 대화 세션 내에서 시시각각 변하는 질의 성격에 유연하게 대응할 수 있습니다. * 모델 통합을 통해 응답 톤, 포맷, 안전 정책의 일관성을 유지하며, 시스템 운영 복잡도와 유지보수 비용을 획기적으로 낮췄습니다. ### 검증 가능한 결론을 도출하는 시각적 추론 * 이미지를 단순히 설명하는 수준을 넘어, 이미지 내 정보를 종합하고 조건을 적용하여 결론을 도출하는 '시각적 추론'에 집중했습니다. * 모델 스스로 정보 종합, 추론 전개, 결과 검증, 최종 답변의 단계를 거치도록 설계되어 답변의 근거가 명확합니다. * 영수증 검산, 표 기반 조건 필터링, 이미지 기반 수학 문제 풀이 등 단순 OCR로는 해결하기 어려운 복잡한 과제에서 높은 정확도를 보여줍니다. ### 신뢰도를 높이는 자기 점검(Reflection) 메커니즘 * 자신의 추론 과정을 스스로 재검토하여 모순이나 실수 가능성을 찾아내는 자기 점검 기능을 탑재했습니다. * 복잡한 멀티모달 질의에서 발생하기 쉬운 조건 누락이나 사소한 계산 실수를 스스로 발견하고 수정하는 패턴을 보입니다. * 이러한 '자기 수정' 과정은 모델의 단순한 정확성을 넘어, 사용자가 AI의 답변을 믿고 사용할 수 있게 만드는 핵심적인 신뢰 요인이 됩니다. ### 한국어 직관을 보존하는 로컬 추론 프로세스 * '~만 제외하고', '단, ~인 경우에만'과 같은 한국어 특유의 복잡한 예외 및 조건부 표현을 번역 없이 한국어 그대로 사고합니다. * 영문 추론 과정에서 발생할 수 있는 의미 왜곡이나 정보 누락을 방지하여 한국어 질의의 의도를 끝까지 유지합니다. * 이미지 속 한국어 텍스트 정보를 다른 언어로 변환하지 않고 직접 처리함으로써 정보의 손실 없는 논리 전개가 가능합니다. Kanana-v-4b-hybrid는 높은 기술적 완성도를 바탕으로 실제 서비스 환경에서 비용 효율성과 정확성을 동시에 잡으려는 환경에 적합합니다. 특히 한국어 환경에서의 정밀한 업무 보조나 교육용 AI 솔루션처럼 정답의 신뢰도가 중요한 분야에서 이 모델의 하이브리드 추론 능력은 강력한 경쟁력이 될 것입니다.

LLM이지만 PDF는 읽고 싶어: 복잡한 PDF를 LLM이 이해하는 방법 (새 탭에서 열림)

네이버는 복잡한 구조의 PDF 문서를 LLM이 정확하게 이해할 수 있도록 돕는 전용 파서인 'PaLADIN'을 개발했습니다. PaLADIN은 표, 차트, 텍스트가 혼재된 문서의 레이아웃을 정밀하게 분석하여 LLM이 처리하기 최적화된 데이터 형식으로 변환하는 데 중점을 둡니다. 이를 통해 증권사 리포트 요약과 같은 전문적인 영역에서 데이터 추출의 정확도를 높이고 AI 서비스의 신뢰성을 확보했습니다. **PaLADIN의 아키텍처와 핵심 기술 스택** * **레이아웃 분석 (Doclayout-Yolo):** 문서 내의 텍스트 영역, 표, 차트 등 각 요소의 위치를 파악하는 'Element-Detector' 역할을 수행하여 문서의 구조를 정의합니다. * **표 및 차트 추출 모델:** 표 구조 분석을 위해 `nemoretriever-table-structure-v1`을 사용하며, 시각적 정보가 중요한 차트 해석에는 `google/gemma3-27b-it` 모델을 활용해 데이터를 추출합니다. * **고성능 OCR 결합:** 네이버의 파파고 OCR 기술을 통합하여 문서 내 텍스트 정보를 정확하게 디지털화하며, 수치와 문자가 섞인 복잡한 본문도 정밀하게 복원합니다. * **파이프라인 최적화:** NVIDIA의 `nv-ingest` 아키텍처를 기반으로 설계를 고도화하여 대량의 PDF 문서를 신속하게 처리할 수 있는 추론 속도를 확보했습니다. **성능 평가 및 서비스 적용 사례** * **정밀한 성능 검증:** 단순 텍스트 추출을 넘어 표 구조 복원 능력과 파싱 속도를 다각도로 측정했으며, 기존 파서 대비 우수한 정확도를 입증했습니다. * **증권사 리포트 요약 서비스:** 수치와 그래프가 많은 증권 리포트를 분석하는 'AIB 증권사 리포트' 서비스에 적용되어, LLM이 잘못된 정보를 생성하는 할루시네이션(환각) 현상을 최소화했습니다. * **LLM as a Judge:** 요약 결과의 품질을 평가하기 위해 LLM을 평가자로 활용하는 방식을 도입, 서비스 적용 시의 실효성을 객관적으로 검토했습니다. **향후 개선 방향** * **정밀도 고도화:** 표 내부의 미세한 셀 좌표 인식 오류를 개선하고, 다양한 형태의 차트에서 데이터를 더 정확하게 뽑아낼 수 있도록 모델을 개선할 예정입니다. * **한국어 최적화:** 국내 사용자 환경에 맞춰 한국어 특화 모델의 성능을 지속적으로 강화하여 문서 이해의 완성도를 높여갈 계획입니다. PDF 내의 비정형 데이터를 정형화된 구조로 변환하는 것은 RAG(검색 증강 생성) 시스템의 성능을 결정짓는 핵심 요소입니다. 복잡한 표나 차트가 포함된 전문 문서를 다루는 서비스를 구축한다면, 단순한 텍스트 추출기를 넘어 레이아웃 분석 모델이 통합된 PaLADIN과 같은 전문 파이프라인 도입을 고려해볼 수 있습니다.