mixture-of-experts

3 개의 포스트

Kanana-2 개발기 (1): Pre-training에서의 의사결정들을 중심으로 (새 탭에서 열림)

카카오는 전문가 혼합(MoE) 아키텍처를 적용하여 추론 효율을 극대화한 'Kanana-2' 모델 시리즈를 공개하고, 이를 확장한 155B 규모의 대형 모델 학습 과정과 기술적 노하우를 공유했습니다. 이번 개발의 핵심은 Muon 옵티마이저와 MuonClip 등의 최신 기술을 도입하여 대규모 학습의 안정성을 확보하고 비용 효율성을 높인 데 있습니다. 특히 한국어 LLM 생태계의 연구 기반을 넓히기 위해 합성 데이터가 포함되지 않은 순수 베이스 모델을 공개함으로써 지속 가능한 AI 연구 환경 구축을 목표로 합니다. **전문가 혼합(MoE) 아키텍처와 효율성** * 전체 32B 파라미터 중 추론 시에는 3B만 활성화하도록 설계하여, 거대 모델의 지능을 유지하면서도 연산 비용을 획기적으로 낮췄습니다. * MoE 학습에 필수적인 커널들을 직접 개발하여 적용함으로써 성능 손실 없이 학습 속도를 높이고 메모리 사용량을 줄였습니다. * 현재 학습 중인 155B 모델(활성 17B)은 8.9T 토큰 학습만으로도 MMLU, KMMLU 등 주요 벤치마크에서 글로벌 경쟁 모델 대비 우수한 성능을 입증하고 있습니다. **연구를 위한 통제된 테스트베드 구축** * 'Kanana-2-30b-a3b-base-2601' 모델은 성능 향상을 유도하는 합성 추론(Reasoning) 데이터를 의도적으로 배제하고 학습되었습니다. * 이는 미세 조정이나 강화 학습 시 발생하는 데이터 불일치 현상을 연구하기 위해, 오염되지 않은 깨끗한 '베이스 모델'이 필요한 연구자들을 위한 결정입니다. * 한국어 LLM 커뮤니티가 모델의 변화 과정을 정밀하게 측정하고 추론 연구를 지속할 수 있는 기초 자산 역할을 수행합니다. **Muon 옵티마이저와 Polar Express 적용** * 기존의 AdamW를 대체하여 파라미터 업데이트 시 그라디언트를 직교화(Orthogonalize)하는 Muon 옵티마이저를 채택하여 학습 효율을 높였습니다. * 업데이트 행렬 계산 시 일반적인 Newton-Schulz 알고리즘 대신, 정확도가 더 높은 Polar Express 알고리즘을 사용해 대규모 학습 후반부의 노이즈를 줄였습니다. * RMSNorm의 파라미터화와 학습률(LR) 조정 등 세부적인 디테일을 최적화하여 수천억 규모의 모델에서도 안정적인 수렴을 달성했습니다. **MuonClip을 통한 대규모 학습 안정화** * 대형 모델 학습 시 발생하는 로짓 폭주(Logit Explosion)를 방지하기 위해 Kimi-K2에서 제안된 MuonClip 기법을 도입했습니다. * 효율적인 연산을 위해 Flash Attention 커널을 수정하여 내부의 Max Logit 값을 실시간으로 반환받아 모니터링과 클리핑에 활용했습니다. * 실험 결과, MuonClip은 높은 학습률 설정에서도 모델이 발산하지 않도록 잡아주며, 훈련이 수렴하더라도 발생할 수 있는 잠재적인 성능 저하 요인을 효과적으로 억제함을 확인했습니다. 카카오의 Kanana-2 개발 사례는 단순한 모델 공개를 넘어, 대규모 MoE 모델 학습에서 발생하는 엔지니어링 이슈를 해결하는 구체적인 방법론을 제시합니다. 특히 고성능 오픈소스 모델을 활용하려는 개발자와 연구자들에게는 효율적인 추론 구조와 더불어, 탄탄한 기초 모델을 기반으로 한 한국어 특화 AI 연구의 새로운 가능성을 제공할 것입니다.

더 똑똑하고 효율적인 Kanana-2 오픈소스 공개 (새 탭에서 열림)

카카오는 사용자의 명령 맥락을 파악하고 능동적으로 동작하는 에이전틱 AI(Agentic AI) 구현에 최적화된 차세대 언어모델 'Kanana-2'를 오픈소스로 공개했습니다. 글로벌 프런티어 모델인 Qwen3-30B-A3B와 대등한 성능을 갖춘 이번 모델은 도구 호출(Tool Calling)과 지시 이행 능력을 대폭 강화하여 실무적인 활용도를 극대화했습니다. 특히 한국어 처리 효율성을 30% 이상 개선하고 추론 특화 모델을 라인업에 추가함으로써, 고도화된 논리적 사고가 필요한 서비스 개발에 강력한 토대를 제공합니다. **다양한 연구 및 서비스 요구사항을 충족하는 세 가지 모델 라인업** * **Kanana-2-30b-a3b-base**: 사전 학습 단계의 웨이트를 포함한 기본 모델로, 연구자들이 자체 데이터를 활용해 자유롭게 파인 튜닝하여 새로운 모델을 개발할 수 있는 기초가 됩니다. * **Kanana-2-30b-a3b-instruct**: 사용자의 지시를 정확히 이해하고 수행하는 능력을 극대화한 버전으로, 일반적인 대화 및 작업 수행에 최적화되어 있습니다. * **Kanana-2-30b-a3b-thinking**: 카카오가 처음으로 선보이는 추론 특화 모델로, 수학이나 코딩 등 복잡한 논리적 사고가 필요한 과제에서 뛰어난 성능을 발휘하며 높은 지시 이행 능력을 동시에 유지합니다. **에이전틱 AI 구현을 위한 도구 호출 및 지시 이행 성능 강화** * **Multi-turn Tool Calling**: 외부 도구를 자유자재로 다루는 능력을 이전 모델(Kanana-1.5) 대비 3배 이상 개선하여, 모델 컨텍스트 프로토콜(MCP) 활용성을 극대화했습니다. * **정교한 지시 이행**: 사용자의 복잡하고 단계적인 요구사항을 정확히 파악하여 결과물을 생성하며, 추론 모델에서도 이러한 성능이 저하되지 않도록 설계되었습니다. * **다국어 지원 확대**: 기존 한국어와 영어에 더해 일본어, 중국어, 태국어, 베트남어까지 총 6개 국어를 지원하여 글로벌 서비스 대응 능력을 높였습니다. **대규모 트래픽 처리를 위한 아키텍처 및 효율성 개선** * **MLA(Multi-head Latent Attention)**: 메모리 점유를 압축하여 긴 문맥(Long Context)을 효율적으로 처리할 수 있도록 설계되었습니다. * **MoE(Mixture of Experts)**: 추론 시 필요한 파라미터만 활성화하는 전문가 혼합 구조를 통해 거대 모델의 성능은 유지하면서 연산 비용과 응답 속도를 획기적으로 개선했습니다. * **한국어 최적화 토크나이저**: 새롭게 학습된 토크나이저를 통해 기존 모델 대비 한국어 토큰 효율을 30% 이상 향상시켜, 더 적은 자원으로 빠른 응답(High Throughput)이 가능합니다. **실용적인 결론 및 제안** Kanana-2는 고성능과 효율성을 동시에 잡은 모델로, 특히 한국어 기반의 복잡한 에이전트 서비스를 구축하려는 개발자에게 최적의 선택지입니다. 허깅페이스(Hugging Face)를 통해 Base 모델부터 추론 특화 모델까지 모두 공개되어 있으므로, 목적에 맞는 모델을 선택해 즉시 파인 튜닝하거나 서비스에 적용해 보실 것을 추천합니다.

Mobius Labs의 Aana 모델을 (새 탭에서 열림)

Dropbox는 최근 인수한 Mobius Labs의 멀티모달 AI 모델 'Aana'를 지능형 비서인 Dropbox Dash에 통합하여, 텍스트를 넘어 이미지와 비디오, 오디오를 깊이 있게 이해하는 검색 환경을 구축하고 있습니다. Aana는 기존 방식보다 훨씬 적은 연산 자원을 사용하면서도 다양한 미디어 간의 복잡한 관계를 분석하여, 사용자가 방대한 양의 멀티모달 콘텐츠에서 필요한 정보를 자연어 검색만으로 즉시 찾아낼 수 있게 돕습니다. 이를 통해 파편화된 미디어 데이터는 연결된 지식 자산으로 전환되며, 창의적인 협업과 업무 효율성을 극대화하는 기반이 마련되었습니다. **확장성을 고려한 멀티모달 분석 엔진** - 비디오와 오디오는 장면 전환, 화자 변경, 화면 내 텍스트, 동작 등 정보의 층위가 복잡하여 기존에는 검색과 정리가 매우 어려웠습니다. - Aana는 텍스트, 이미지, 오디오를 개별적으로 처리하는 대신, 이들이 서로 어떻게 상호작용하며 의미를 형성하는지 분석하는 통합적 접근 방식을 취합니다. - 모든 분석 정보는 '공유 벡터 공간(Shared Vector Space)'으로 변환되어, "발표자가 API 흐름을 설명하는 부분"과 같은 구체적인 맥락 기반의 검색을 가능하게 합니다. **효율적인 추론을 위한 기술적 아키텍처** - 오디오 분석에는 Whisper를 최적화한 `faster-whisper-large-v3-turbo` 모델을 사용하며, 시각 및 언어 시스템에는 트랜스포머 기반의 MoE(Mixture-of-Experts) 아키텍처를 적용했습니다. - **HQQ(High Quality Quantization) 시스템:** 4비트 및 8비트 저비트 추론을 지원하여 대규모 데이터 처리 시 발생하는 컴퓨팅 비용과 메모리 요구량을 획기적으로 낮췄습니다. - **Gemlite 기술:** 커스텀 GPU 커널을 통해 행렬 곱셈과 어텐션 레이어 같은 핵심 AI 연산을 가속화합니다. - **Aana SDK:** 모델 조정, 배치 처리, GPU 활용 최적화를 관리하는 유연한 프레임워크를 제공하여 복잡한 멀티모달 워크플로우를 효율적으로 배포할 수 있도록 지원합니다. **미디어 데이터를 지식으로 전환하는 미래 가치** - 전통적인 아키텍처의 극히 일부에 불과한 컴퓨팅 자원만으로도 엑사바이트(exabytes)급의 방대한 데이터를 분석할 수 있는 경제성을 확보했습니다. - 단순 검색을 넘어 회의 요약, 특정 시각적 모티프 탐색 등 멀티모달 데이터를 해석하고 자동으로 통찰을 제공하는 '에이전틱 워크플로우(Agentic workflows)'의 기반이 됩니다. - 마케팅, 크리에이티브, 기술 팀은 수년 치의 미디어 아카이브를 수동으로 뒤지는 대신, AI를 통해 즉각적인 답변을 얻고 아이디어를 실행에 옮길 수 있습니다. Dropbox Dash와 Aana의 결합은 사용자가 콘텐츠의 형식이나 위치에 구애받지 않고 업무의 맥락에 집중할 수 있게 합니다. 특히 영상 속 특정 장면을 찾기 위해 타임라인을 일일이 훑어야 했던 수고를 덜어줌으로써, 미디어 집약적인 업무를 수행하는 전문가들에게 실질적인 생산성 향상을 제공할 것으로 기대됩니다.