음성 AI 모델을 프로덕션에 올리기까지: Kanana-O 서빙 최적화 여정 (새 탭에서 열림)
음성 AI 모델을 프로덕션에 올리기까지: Kanana-O 서빙 최적화 여정
25 개의 포스트
음성 AI 모델을 프로덕션에 올리기까지: Kanana-O 서빙 최적화 여정
수억 건의 보안 신호 속 진짜 위협 찾기 — AI로 보안 모니터링의 패러다임을 바꾸다
학생에서 개발자로: DB, 보안부터 AI까지, 정답보다 합리적인 선택을 배우다
잃어버린 리포트를 찾아서: 카카오 메시징 시스템의 경쟁 조건 문제와 안티 패턴 제거 과정
카카오는 전문가 혼합(MoE) 아키텍처를 적용하여 추론 효율을 극대화한 'Kanana-2' 모델 시리즈를 공개하고, 이를 확장한 155B 규모의 대형 모델 학습 과정과 기술적 노하우를 공유했습니다. 이번 개발의 핵심은 Muon 옵티마이저와 MuonClip 등의 최신 기술을 도입하여 대규모 학습의 안정성을 확보하고 비용 효율성을 높인 데 있습니다. 특히 한국어 LLM 생태계의 연구 기반을 넓히기 위해 합성 데이터가 포함되지 않은 순수 베이스 모델을 공개함으로써 지속 가능한 AI 연구 환경 구축을 목표로 합니다. **전문가 혼합(MoE) 아키텍처와 효율성** * 전체 32B 파라미터 중 추론 시에는 3B만 활성화하도록 설계하여, 거대 모델의 지능을 유지하면서도 연산 비용을 획기적으로 낮췄습니다. * MoE 학습에 필수적인 커널들을 직접 개발하여 적용함으로써 성능 손실 없이 학습 속도를 높이고 메모리 사용량을 줄였습니다. * 현재 학습 중인 155B 모델(활성 17B)은 8.9T 토큰 학습만으로도 MMLU, KMMLU 등 주요 벤치마크에서 글로벌 경쟁 모델 대비 우수한 성능을 입증하고 있습니다. **연구를 위한 통제된 테스트베드 구축** * 'Kanana-2-30b-a3b-base-2601' 모델은 성능 향상을 유도하는 합성 추론(Reasoning) 데이터를 의도적으로 배제하고 학습되었습니다. * 이는 미세 조정이나 강화 학습 시 발생하는 데이터 불일치 현상을 연구하기 위해, 오염되지 않은 깨끗한 '베이스 모델'이 필요한 연구자들을 위한 결정입니다. * 한국어 LLM 커뮤니티가 모델의 변화 과정을 정밀하게 측정하고 추론 연구를 지속할 수 있는 기초 자산 역할을 수행합니다. **Muon 옵티마이저와 Polar Express 적용** * 기존의 AdamW를 대체하여 파라미터 업데이트 시 그라디언트를 직교화(Orthogonalize)하는 Muon 옵티마이저를 채택하여 학습 효율을 높였습니다. * 업데이트 행렬 계산 시 일반적인 Newton-Schulz 알고리즘 대신, 정확도가 더 높은 Polar Express 알고리즘을 사용해 대규모 학습 후반부의 노이즈를 줄였습니다. * RMSNorm의 파라미터화와 학습률(LR) 조정 등 세부적인 디테일을 최적화하여 수천억 규모의 모델에서도 안정적인 수렴을 달성했습니다. **MuonClip을 통한 대규모 학습 안정화** * 대형 모델 학습 시 발생하는 로짓 폭주(Logit Explosion)를 방지하기 위해 Kimi-K2에서 제안된 MuonClip 기법을 도입했습니다. * 효율적인 연산을 위해 Flash Attention 커널을 수정하여 내부의 Max Logit 값을 실시간으로 반환받아 모니터링과 클리핑에 활용했습니다. * 실험 결과, MuonClip은 높은 학습률 설정에서도 모델이 발산하지 않도록 잡아주며, 훈련이 수렴하더라도 발생할 수 있는 잠재적인 성능 저하 요인을 효과적으로 억제함을 확인했습니다. 카카오의 Kanana-2 개발 사례는 단순한 모델 공개를 넘어, 대규모 MoE 모델 학습에서 발생하는 엔지니어링 이슈를 해결하는 구체적인 방법론을 제시합니다. 특히 고성능 오픈소스 모델을 활용하려는 개발자와 연구자들에게는 효율적인 추론 구조와 더불어, 탄탄한 기초 모델을 기반으로 한 한국어 특화 AI 연구의 새로운 가능성을 제공할 것입니다.
카카오는 차세대 언어모델 Kanana-2를 공개하며, 단순한 대화형 AI를 넘어 에이전트 환경에 최적화된 성능을 구현하기 위한 고도화된 Post-training 레시피를 적용했습니다. 이번 모델은 Pre-training과 Post-training 사이의 'Mid-training' 단계를 도입하여 추론 능력을 극대화하는 동시에, 한국어 성능 저하 문제를 해결하기 위해 기존 학습 데이터를 재학습시키는 전략을 사용했습니다. 결과적으로 Kanana-2는 도구 호출(Tool Calling)과 복잡한 지시 이행 능력에서 비약적인 발전을 이루었으며, 특히 Thinking 모델은 고난도 수학 및 코딩 영역에서 글로벌 수준의 성능을 입증했습니다. ### 성능의 가교 역할을 하는 Mid-training * **도입 배경**: 일반적인 사전 학습(Pre-training)만으로는 복잡한 추론이나 도구 사용 능력을 갖추기 어렵기 때문에, 본격적인 미세 조정 전 단계로서 모델의 잠재력을 끌어올리는 중간 단계를 설계했습니다. * **데이터 구성**: 최신 고성능 모델에서 추출한 200B 규모의 고품질 영어 추론 데이터와 수학, 코드 데이터를 집중적으로 학습시켰습니다. * **치명적 망각(Catastrophic Forgetting) 방지**: 영어 추론 데이터 학습 시 한국어 성능이 하락하는 문제를 방지하고자, 사전 학습 데이터 중 한국어 데이터를 포함한 50B 토큰을 일정 비율로 섞어 학습(Replay 전략)함으로써 언어 균형을 유지했습니다. * **효과**: Mid-training을 거친 모델은 기본 모델 대비 수학(MATH) 및 코딩(HumanEval) 벤치마크에서 유의미한 향상을 보였으며, 이후 Instruct 학습 시 더 빠른 수렴 속도와 높은 최종 성능을 나타냈습니다. ### 에이전트 능력을 강화한 Instruct 모델 * **SFT 전략의 최적화**: 기존 Kanana-1.5 데이터셋에 Nemotron 등 오픈소스 고품질 데이터를 단순히 교체하기보다 추가로 통합(Supplementation)했을 때, 전반적인 성능과 지시 이행 능력의 균형이 가장 잘 유지됨을 확인했습니다. * **Agentic AI 역량**: 실질적인 도구 활용을 위해 단일·다중·병렬 도구 호출 능력을 강화했으며, 답변의 길이, 언어 설정, 특정 단어 제외 등 복잡한 제약 조건을 준수하는 지시 이행 능력을 고도화했습니다. * **Parallel RL 파이프라인**: 대화 스타일과 선호도를 학습하는 DPO(Direct Preference Optimization)와 객관적인 정답이 존재하는 추론/코딩 성능을 높이는 PPO(Proximal Policy Optimization)를 병렬로 적용하여 효율적인 학습 구조를 구축했습니다. * **신뢰성 개선**: RL 단계 이후 KTO(Kahneman-Tversky Optimization) 기반의 Calibration Tuning을 추가하여 모델 답변의 신뢰도를 높이고 환각 현상을 줄였습니다. ### 추론에 특화된 Thinking 모델 * **CoT 기반 학습**: 모델이 문제 해결 과정을 단계별로 사고하는 '사고의 사슬(Chain-of-Thought)'을 학습하도록 SFT 데이터를 구성했습니다. * **Rule-based RL**: 수학과 코딩처럼 정답이 명확한 도메인에 대해 규칙 기반 보상(Reward) 모델을 적용하여, 모델 스스로 더 나은 추론 경로를 탐색하고 검증하도록 유도했습니다. * **성능 도약**: Thinking 모델은 AIME25 벤치마크에서 기본 모델(9.21) 대비 약 5배 향상된 50.0점을 기록했으며, 실시간 코딩 테스트인 LiveCodeBench에서도 글로벌 수준의 경쟁력을 확보했습니다. 이번 Kanana-2 개발 과정은 대규모 추론 데이터 주입 시 발생하는 언어적 편향을 '사전 데이터 리플레이'로 해결하고, DPO와 PPO를 병렬로 활용하여 효율성을 극대화한 사례로 평가됩니다. 복잡한 추론과 도구 활용이 필요한 에이전트 서비스를 기획 중이라면, 단순 Instruct 모델보다 Mid-training을 통해 기초 체력을 다진 후 Thinking SFT가 적용된 모델을 활용하는 것이 더욱 안정적인 성능을 기대할 수 있는 방법입니다.
카카오가 개발한 'Kanana-v-4b-hybrid'는 단순한 이미지 인식을 넘어 논리적 추론과 자기 점검 기능을 갖춘 하이브리드 멀티모달 언어모델입니다. 이 모델은 단일 시스템 내에서 일상적인 대화와 복잡한 시각적 추론을 동시에 수행하며, 특히 한국어 특유의 섬세한 제약 조건을 정확히 이해하고 처리하는 데 최적화되어 있습니다. 이를 통해 한국어 기반의 검정고시 및 수능 문항 평가인 KoNET에서 92.8점이라는 높은 성적을 거두며 한국형 AI의 새로운 가능성을 입증했습니다. ### 하이브리드 대응을 위한 단일 모델 구조 * 직관적 응답이 필요한 일반 대화와 논리적 단계가 필요한 추론 모델을 분리하지 않고 하나의 모델로 통합했습니다. * 별도의 라우팅(Routing) 시스템 없이도 한 대화 세션 내에서 시시각각 변하는 질의 성격에 유연하게 대응할 수 있습니다. * 모델 통합을 통해 응답 톤, 포맷, 안전 정책의 일관성을 유지하며, 시스템 운영 복잡도와 유지보수 비용을 획기적으로 낮췄습니다. ### 검증 가능한 결론을 도출하는 시각적 추론 * 이미지를 단순히 설명하는 수준을 넘어, 이미지 내 정보를 종합하고 조건을 적용하여 결론을 도출하는 '시각적 추론'에 집중했습니다. * 모델 스스로 정보 종합, 추론 전개, 결과 검증, 최종 답변의 단계를 거치도록 설계되어 답변의 근거가 명확합니다. * 영수증 검산, 표 기반 조건 필터링, 이미지 기반 수학 문제 풀이 등 단순 OCR로는 해결하기 어려운 복잡한 과제에서 높은 정확도를 보여줍니다. ### 신뢰도를 높이는 자기 점검(Reflection) 메커니즘 * 자신의 추론 과정을 스스로 재검토하여 모순이나 실수 가능성을 찾아내는 자기 점검 기능을 탑재했습니다. * 복잡한 멀티모달 질의에서 발생하기 쉬운 조건 누락이나 사소한 계산 실수를 스스로 발견하고 수정하는 패턴을 보입니다. * 이러한 '자기 수정' 과정은 모델의 단순한 정확성을 넘어, 사용자가 AI의 답변을 믿고 사용할 수 있게 만드는 핵심적인 신뢰 요인이 됩니다. ### 한국어 직관을 보존하는 로컬 추론 프로세스 * '~만 제외하고', '단, ~인 경우에만'과 같은 한국어 특유의 복잡한 예외 및 조건부 표현을 번역 없이 한국어 그대로 사고합니다. * 영문 추론 과정에서 발생할 수 있는 의미 왜곡이나 정보 누락을 방지하여 한국어 질의의 의도를 끝까지 유지합니다. * 이미지 속 한국어 텍스트 정보를 다른 언어로 변환하지 않고 직접 처리함으로써 정보의 손실 없는 논리 전개가 가능합니다. Kanana-v-4b-hybrid는 높은 기술적 완성도를 바탕으로 실제 서비스 환경에서 비용 효율성과 정확성을 동시에 잡으려는 환경에 적합합니다. 특히 한국어 환경에서의 정밀한 업무 보조나 교육용 AI 솔루션처럼 정답의 신뢰도가 중요한 분야에서 이 모델의 하이브리드 추론 능력은 강력한 경쟁력이 될 것입니다.