agentic-ai - 카카오

kakao 2026년 1월 15일

Kanana-2 개발기 (2): 개선된 post-training recipe를 중심으로 (새 탭에서 열림)

카카오는 차세대 언어모델 Kanana-2를 공개하며, 단순한 대화형 AI를 넘어 에이전트 환경에 최적화된 성능을 구현하기 위한 고도화된 Post-training 레시피를 적용했습니다. 이번 모델은 Pre-training과 Post-training 사이의 'Mid-training' 단계를 도입하여 추론 능력을 극대화하는 동시에, 한국어 성능 저하 문제를 해결하기 위해 기존 학습 데이터를 재학습시키는 전략을 사용했습니다. 결과적으로 Kanana-2는 도구 호출(Tool Calling)과 복잡한 지시 이행 능력에서 비약적인 발전을 이루었으며, 특히 Thinking 모델은 고난도 수학 및 코딩 영역에서 글로벌 수준의 성능을 입증했습니다. ### 성능의 가교 역할을 하는 Mid-training * **도입 배경**: 일반적인 사전 학습(Pre-training)만으로는 복잡한 추론이나 도구 사용 능력을 갖추기 어렵기 때문에, 본격적인 미세 조정 전 단계로서 모델의 잠재력을 끌어올리는 중간 단계를 설계했습니다. * **데이터 구성**: 최신 고성능 모델에서 추출한 200B 규모의 고품질 영어 추론 데이터와 수학, 코드 데이터를 집중적으로 학습시켰습니다. * **치명적 망각(Catastrophic Forgetting) 방지**: 영어 추론 데이터 학습 시 한국어 성능이 하락하는 문제를 방지하고자, 사전 학습 데이터 중 한국어 데이터를 포함한 50B 토큰을 일정 비율로 섞어 학습(Replay 전략)함으로써 언어 균형을 유지했습니다. * **효과**: Mid-training을 거친 모델은 기본 모델 대비 수학(MATH) 및 코딩(HumanEval) 벤치마크에서 유의미한 향상을 보였으며, 이후 Instruct 학습 시 더 빠른 수렴 속도와 높은 최종 성능을 나타냈습니다. ### 에이전트 능력을 강화한 Instruct 모델 * **SFT 전략의 최적화**: 기존 Kanana-1.5 데이터셋에 Nemotron 등 오픈소스 고품질 데이터를 단순히 교체하기보다 추가로 통합(Supplementation)했을 때, 전반적인 성능과 지시 이행 능력의 균형이 가장 잘 유지됨을 확인했습니다. * **Agentic AI 역량**: 실질적인 도구 활용을 위해 단일·다중·병렬 도구 호출 능력을 강화했으며, 답변의 길이, 언어 설정, 특정 단어 제외 등 복잡한 제약 조건을 준수하는 지시 이행 능력을 고도화했습니다. * **Parallel RL 파이프라인**: 대화 스타일과 선호도를 학습하는 DPO(Direct Preference Optimization)와 객관적인 정답이 존재하는 추론/코딩 성능을 높이는 PPO(Proximal Policy Optimization)를 병렬로 적용하여 효율적인 학습 구조를 구축했습니다. * **신뢰성 개선**: RL 단계 이후 KTO(Kahneman-Tversky Optimization) 기반의 Calibration Tuning을 추가하여 모델 답변의 신뢰도를 높이고 환각 현상을 줄였습니다. ### 추론에 특화된 Thinking 모델 * **CoT 기반 학습**: 모델이 문제 해결 과정을 단계별로 사고하는 '사고의 사슬(Chain-of-Thought)'을 학습하도록 SFT 데이터를 구성했습니다. * **Rule-based RL**: 수학과 코딩처럼 정답이 명확한 도메인에 대해 규칙 기반 보상(Reward) 모델을 적용하여, 모델 스스로 더 나은 추론 경로를 탐색하고 검증하도록 유도했습니다. * **성능 도약**: Thinking 모델은 AIME25 벤치마크에서 기본 모델(9.21) 대비 약 5배 향상된 50.0점을 기록했으며, 실시간 코딩 테스트인 LiveCodeBench에서도 글로벌 수준의 경쟁력을 확보했습니다. 이번 Kanana-2 개발 과정은 대규모 추론 데이터 주입 시 발생하는 언어적 편향을 '사전 데이터 리플레이'로 해결하고, DPO와 PPO를 병렬로 활용하여 효율성을 극대화한 사례로 평가됩니다. 복잡한 추론과 도구 활용이 필요한 에이전트 서비스를 기획 중이라면, 단순 Instruct 모델보다 Mid-training을 통해 기초 체력을 다진 후 Thinking SFT가 적용된 모델을 활용하는 것이 더욱 안정적인 성능을 기대할 수 있는 방법입니다.

agentic-ai ai llm reinforcement-learning+5

kakao 2025년 12월 18일

더 똑똑하고 효율적인 Kanana-2 오픈소스 공개 (새 탭에서 열림)

카카오는 사용자의 명령 맥락을 파악하고 능동적으로 동작하는 에이전틱 AI(Agentic AI) 구현에 최적화된 차세대 언어모델 'Kanana-2'를 오픈소스로 공개했습니다. 글로벌 프런티어 모델인 Qwen3-30B-A3B와 대등한 성능을 갖춘 이번 모델은 도구 호출(Tool Calling)과 지시 이행 능력을 대폭 강화하여 실무적인 활용도를 극대화했습니다. 특히 한국어 처리 효율성을 30% 이상 개선하고 추론 특화 모델을 라인업에 추가함으로써, 고도화된 논리적 사고가 필요한 서비스 개발에 강력한 토대를 제공합니다. **다양한 연구 및 서비스 요구사항을 충족하는 세 가지 모델 라인업** * **Kanana-2-30b-a3b-base**: 사전 학습 단계의 웨이트를 포함한 기본 모델로, 연구자들이 자체 데이터를 활용해 자유롭게 파인 튜닝하여 새로운 모델을 개발할 수 있는 기초가 됩니다. * **Kanana-2-30b-a3b-instruct**: 사용자의 지시를 정확히 이해하고 수행하는 능력을 극대화한 버전으로, 일반적인 대화 및 작업 수행에 최적화되어 있습니다. * **Kanana-2-30b-a3b-thinking**: 카카오가 처음으로 선보이는 추론 특화 모델로, 수학이나 코딩 등 복잡한 논리적 사고가 필요한 과제에서 뛰어난 성능을 발휘하며 높은 지시 이행 능력을 동시에 유지합니다. **에이전틱 AI 구현을 위한 도구 호출 및 지시 이행 성능 강화** * **Multi-turn Tool Calling**: 외부 도구를 자유자재로 다루는 능력을 이전 모델(Kanana-1.5) 대비 3배 이상 개선하여, 모델 컨텍스트 프로토콜(MCP) 활용성을 극대화했습니다. * **정교한 지시 이행**: 사용자의 복잡하고 단계적인 요구사항을 정확히 파악하여 결과물을 생성하며, 추론 모델에서도 이러한 성능이 저하되지 않도록 설계되었습니다. * **다국어 지원 확대**: 기존 한국어와 영어에 더해 일본어, 중국어, 태국어, 베트남어까지 총 6개 국어를 지원하여 글로벌 서비스 대응 능력을 높였습니다. **대규모 트래픽 처리를 위한 아키텍처 및 효율성 개선** * **MLA(Multi-head Latent Attention)**: 메모리 점유를 압축하여 긴 문맥(Long Context)을 효율적으로 처리할 수 있도록 설계되었습니다. * **MoE(Mixture of Experts)**: 추론 시 필요한 파라미터만 활성화하는 전문가 혼합 구조를 통해 거대 모델의 성능은 유지하면서 연산 비용과 응답 속도를 획기적으로 개선했습니다. * **한국어 최적화 토크나이저**: 새롭게 학습된 토크나이저를 통해 기존 모델 대비 한국어 토큰 효율을 30% 이상 향상시켜, 더 적은 자원으로 빠른 응답(High Throughput)이 가능합니다. **실용적인 결론 및 제안** Kanana-2는 고성능과 효율성을 동시에 잡은 모델로, 특히 한국어 기반의 복잡한 에이전트 서비스를 구축하려는 개발자에게 최적의 선택지입니다. 허깅페이스(Hugging Face)를 통해 Base 모델부터 추론 특화 모델까지 모두 공개되어 있으므로, 목적에 맞는 모델을 선택해 즉시 파인 튜닝하거나 서비스에 적용해 보실 것을 추천합니다.

agentic-ai llm open-source hugging-face+4