카카오 | Techlist.io

kakao 2026년 1월 15일

Kanana-2 개발기 (2): 개선된 post-training recipe를 중심으로 - tech.kakao.com (새 탭에서 열림)

카카오는 차세대 언어모델 Kanana-2를 공개하며, 단순한 대화형 AI를 넘어 에이전트 환경에 최적화된 성능을 구현하기 위한 고도화된 Post-training 레시피를 적용했습니다. 이번 모델은 Pre-training과 Post-training 사이의 'Mid-training' 단계를 도입하여 추론 능력을 극대화하는 동시에, 한국어 성능 저하 문제를 해결하기 위해 기존 학습 데이터를 재학습시키는 전략을 사용했습니다. 결과적으로 Kanana-2는 도구 호출(Tool Calling)과 복잡한 지시 이행 능력에서 비약적인 발전을 이루었으며, 특히 Thinking 모델은 고난도 수학 및 코딩 영역에서 글로벌 수준의 성능을 입증했습니다. ### 성능의 가교 역할을 하는 Mid-training * **도입 배경**: 일반적인 사전 학습(Pre-training)만으로는 복잡한 추론이나 도구 사용 능력을 갖추기 어렵기 때문에, 본격적인 미세 조정 전 단계로서 모델의 잠재력을 끌어올리는 중간 단계를 설계했습니다. * **데이터 구성**: 최신 고성능 모델에서 추출한 200B 규모의 고품질 영어 추론 데이터와 수학, 코드 데이터를 집중적으로 학습시켰습니다. * **치명적 망각(Catastrophic Forgetting) 방지**: 영어 추론 데이터 학습 시 한국어 성능이 하락하는 문제를 방지하고자, 사전 학습 데이터 중 한국어 데이터를 포함한 50B 토큰을 일정 비율로 섞어 학습(Replay 전략)함으로써 언어 균형을 유지했습니다. * **효과**: Mid-training을 거친 모델은 기본 모델 대비 수학(MATH) 및 코딩(HumanEval) 벤치마크에서 유의미한 향상을 보였으며, 이후 Instruct 학습 시 더 빠른 수렴 속도와 높은 최종 성능을 나타냈습니다. ### 에이전트 능력을 강화한 Instruct 모델 * **SFT 전략의 최적화**: 기존 Kanana-1.5 데이터셋에 Nemotron 등 오픈소스 고품질 데이터를 단순히 교체하기보다 추가로 통합(Supplementation)했을 때, 전반적인 성능과 지시 이행 능력의 균형이 가장 잘 유지됨을 확인했습니다. * **Agentic AI 역량**: 실질적인 도구 활용을 위해 단일·다중·병렬 도구 호출 능력을 강화했으며, 답변의 길이, 언어 설정, 특정 단어 제외 등 복잡한 제약 조건을 준수하는 지시 이행 능력을 고도화했습니다. * **Parallel RL 파이프라인**: 대화 스타일과 선호도를 학습하는 DPO(Direct Preference Optimization)와 객관적인 정답이 존재하는 추론/코딩 성능을 높이는 PPO(Proximal Policy Optimization)를 병렬로 적용하여 효율적인 학습 구조를 구축했습니다. * **신뢰성 개선**: RL 단계 이후 KTO(Kahneman-Tversky Optimization) 기반의 Calibration Tuning을 추가하여 모델 답변의 신뢰도를 높이고 환각 현상을 줄였습니다. ### 추론에 특화된 Thinking 모델 * **CoT 기반 학습**: 모델이 문제 해결 과정을 단계별로 사고하는 '사고의 사슬(Chain-of-Thought)'을 학습하도록 SFT 데이터를 구성했습니다. * **Rule-based RL**: 수학과 코딩처럼 정답이 명확한 도메인에 대해 규칙 기반 보상(Reward) 모델을 적용하여, 모델 스스로 더 나은 추론 경로를 탐색하고 검증하도록 유도했습니다. * **성능 도약**: Thinking 모델은 AIME25 벤치마크에서 기본 모델(9.21) 대비 약 5배 향상된 50.0점을 기록했으며, 실시간 코딩 테스트인 LiveCodeBench에서도 글로벌 수준의 경쟁력을 확보했습니다. 이번 Kanana-2 개발 과정은 대규모 추론 데이터 주입 시 발생하는 언어적 편향을 '사전 데이터 리플레이'로 해결하고, DPO와 PPO를 병렬로 활용하여 효율성을 극대화한 사례로 평가됩니다. 복잡한 추론과 도구 활용이 필요한 에이전트 서비스를 기획 중이라면, 단순 Instruct 모델보다 Mid-training을 통해 기초 체력을 다진 후 Thinking SFT가 적용된 모델을 활용하는 것이 더욱 안정적인 성능을 기대할 수 있는 방법입니다.

ai llm reinforcement-learning supervised-fine-tuning+5

kakao 2026년 1월 15일

Kanana-2 개발기 (1): Pre-training에서의 의사결정들을 중심으로 - tech.kakao.com (새 탭에서 열림)

카카오는 전문가 혼합(MoE) 아키텍처를 적용하여 추론 효율을 극대화한 'Kanana-2' 모델 시리즈를 공개하고, 이를 확장한 155B 규모의 대형 모델 학습 과정과 기술적 노하우를 공유했습니다. 이번 개발의 핵심은 Muon 옵티마이저와 MuonClip 등의 최신 기술을 도입하여 대규모 학습의 안정성을 확보하고 비용 효율성을 높인 데 있습니다. 특히 한국어 LLM 생태계의 연구 기반을 넓히기 위해 합성 데이터가 포함되지 않은 순수 베이스 모델을 공개함으로써 지속 가능한 AI 연구 환경 구축을 목표로 합니다. **전문가 혼합(MoE) 아키텍처와 효율성** * 전체 32B 파라미터 중 추론 시에는 3B만 활성화하도록 설계하여, 거대 모델의 지능을 유지하면서도 연산 비용을 획기적으로 낮췄습니다. * MoE 학습에 필수적인 커널들을 직접 개발하여 적용함으로써 성능 손실 없이 학습 속도를 높이고 메모리 사용량을 줄였습니다. * 현재 학습 중인 155B 모델(활성 17B)은 8.9T 토큰 학습만으로도 MMLU, KMMLU 등 주요 벤치마크에서 글로벌 경쟁 모델 대비 우수한 성능을 입증하고 있습니다. **연구를 위한 통제된 테스트베드 구축** * 'Kanana-2-30b-a3b-base-2601' 모델은 성능 향상을 유도하는 합성 추론(Reasoning) 데이터를 의도적으로 배제하고 학습되었습니다. * 이는 미세 조정이나 강화 학습 시 발생하는 데이터 불일치 현상을 연구하기 위해, 오염되지 않은 깨끗한 '베이스 모델'이 필요한 연구자들을 위한 결정입니다. * 한국어 LLM 커뮤니티가 모델의 변화 과정을 정밀하게 측정하고 추론 연구를 지속할 수 있는 기초 자산 역할을 수행합니다. **Muon 옵티마이저와 Polar Express 적용** * 기존의 AdamW를 대체하여 파라미터 업데이트 시 그라디언트를 직교화(Orthogonalize)하는 Muon 옵티마이저를 채택하여 학습 효율을 높였습니다. * 업데이트 행렬 계산 시 일반적인 Newton-Schulz 알고리즘 대신, 정확도가 더 높은 Polar Express 알고리즘을 사용해 대규모 학습 후반부의 노이즈를 줄였습니다. * RMSNorm의 파라미터화와 학습률(LR) 조정 등 세부적인 디테일을 최적화하여 수천억 규모의 모델에서도 안정적인 수렴을 달성했습니다. **MuonClip을 통한 대규모 학습 안정화** * 대형 모델 학습 시 발생하는 로짓 폭주(Logit Explosion)를 방지하기 위해 Kimi-K2에서 제안된 MuonClip 기법을 도입했습니다. * 효율적인 연산을 위해 Flash Attention 커널을 수정하여 내부의 Max Logit 값을 실시간으로 반환받아 모니터링과 클리핑에 활용했습니다. * 실험 결과, MuonClip은 높은 학습률 설정에서도 모델이 발산하지 않도록 잡아주며, 훈련이 수렴하더라도 발생할 수 있는 잠재적인 성능 저하 요인을 효과적으로 억제함을 확인했습니다. 카카오의 Kanana-2 개발 사례는 단순한 모델 공개를 넘어, 대규모 MoE 모델 학습에서 발생하는 엔지니어링 이슈를 해결하는 구체적인 방법론을 제시합니다. 특히 고성능 오픈소스 모델을 활용하려는 개발자와 연구자들에게는 효율적인 추론 구조와 더불어, 탄탄한 기초 모델을 기반으로 한 한국어 특화 AI 연구의 새로운 가능성을 제공할 것입니다.

kakao 2026년 1월 4일

“생각하고 답변하는” 카카오의 하이브리드 멀티모달 언어모델, Kanana-v-4b-hybrid 개발기 - tech.kakao.com (새 탭에서 열림)

카카오가 개발한 'Kanana-v-4b-hybrid'는 단순한 이미지 인식을 넘어 논리적 추론과 자기 점검 기능을 갖춘 하이브리드 멀티모달 언어모델입니다. 이 모델은 단일 시스템 내에서 일상적인 대화와 복잡한 시각적 추론을 동시에 수행하며, 특히 한국어 특유의 섬세한 제약 조건을 정확히 이해하고 처리하는 데 최적화되어 있습니다. 이를 통해 한국어 기반의 검정고시 및 수능 문항 평가인 KoNET에서 92.8점이라는 높은 성적을 거두며 한국형 AI의 새로운 가능성을 입증했습니다. ### 하이브리드 대응을 위한 단일 모델 구조 * 직관적 응답이 필요한 일반 대화와 논리적 단계가 필요한 추론 모델을 분리하지 않고 하나의 모델로 통합했습니다. * 별도의 라우팅(Routing) 시스템 없이도 한 대화 세션 내에서 시시각각 변하는 질의 성격에 유연하게 대응할 수 있습니다. * 모델 통합을 통해 응답 톤, 포맷, 안전 정책의 일관성을 유지하며, 시스템 운영 복잡도와 유지보수 비용을 획기적으로 낮췄습니다. ### 검증 가능한 결론을 도출하는 시각적 추론 * 이미지를 단순히 설명하는 수준을 넘어, 이미지 내 정보를 종합하고 조건을 적용하여 결론을 도출하는 '시각적 추론'에 집중했습니다. * 모델 스스로 정보 종합, 추론 전개, 결과 검증, 최종 답변의 단계를 거치도록 설계되어 답변의 근거가 명확합니다. * 영수증 검산, 표 기반 조건 필터링, 이미지 기반 수학 문제 풀이 등 단순 OCR로는 해결하기 어려운 복잡한 과제에서 높은 정확도를 보여줍니다. ### 신뢰도를 높이는 자기 점검(Reflection) 메커니즘 * 자신의 추론 과정을 스스로 재검토하여 모순이나 실수 가능성을 찾아내는 자기 점검 기능을 탑재했습니다. * 복잡한 멀티모달 질의에서 발생하기 쉬운 조건 누락이나 사소한 계산 실수를 스스로 발견하고 수정하는 패턴을 보입니다. * 이러한 '자기 수정' 과정은 모델의 단순한 정확성을 넘어, 사용자가 AI의 답변을 믿고 사용할 수 있게 만드는 핵심적인 신뢰 요인이 됩니다. ### 한국어 직관을 보존하는 로컬 추론 프로세스 * '~만 제외하고', '단, ~인 경우에만'과 같은 한국어 특유의 복잡한 예외 및 조건부 표현을 번역 없이 한국어 그대로 사고합니다. * 영문 추론 과정에서 발생할 수 있는 의미 왜곡이나 정보 누락을 방지하여 한국어 질의의 의도를 끝까지 유지합니다. * 이미지 속 한국어 텍스트 정보를 다른 언어로 변환하지 않고 직접 처리함으로써 정보의 손실 없는 논리 전개가 가능합니다. Kanana-v-4b-hybrid는 높은 기술적 완성도를 바탕으로 실제 서비스 환경에서 비용 효율성과 정확성을 동시에 잡으려는 환경에 적합합니다. 특히 한국어 환경에서의 정밀한 업무 보조나 교육용 AI 솔루션처럼 정답의 신뢰도가 중요한 분야에서 이 모델의 하이브리드 추론 능력은 강력한 경쟁력이 될 것입니다.

multimodal-ai kanana chain-of-thought ocr+3

kakao 2025년 12월 21일

초경량 클래식 형태소 분석기 개발기 - tech.kakao.com (새 탭에서 열림)

카카오는 모바일 환경의 엄격한 리소스 제한을 극복하기 위해 C++20 기반의 초경량 형태소 분석기를 직접 개발했습니다. 최신 딥러닝 방식 대신 전통적인 Viterbi 알고리즘과 LOUDS 기반의 Trie 압축 기술을 결합하여, 바이너리 크기를 200KB 수준으로 최소화하면서도 효율적인 사전 탐색 성능을 확보하는 데 성공했습니다. ### Rust 대신 C++20을 선택한 이유 * **바이너리 크기 최적화**: Rust는 현대적인 기능을 제공하지만 표준 라이브러리 포함 시 바이너리 크기가 MB 단위로 커지는 경향이 있어, KB 단위의 관리가 필요한 모바일 환경에는 부적합했습니다. * **기존 인프라 활용**: 모바일 OS 환경에 이미 포함된 C++ 표준 라이브러리를 활용함으로써 최종 결과물 크기를 약 200KB 수준으로 억제했습니다. * **현대적 문법 적용**: C++20의 `Concepts`를 사용하여 템플릿 제약을 명확히 하고, `std::span`과 `std::ranges` 등을 통해 메모리 안전성과 코드 가독성을 동시에 높였습니다. ### LOUDS 알고리즘을 통한 사전 데이터 압축 * **비트 시퀀스 기반 트리**: 트리 구조를 포인터 대신 비트열로 표현하는 LOUDS(Level-Order Unary Degree Sequence)를 채택하여 메모리 사용량을 정보 이론적 하한에 가깝게 줄였습니다. * **높은 압축률 달성**: 약 76만 개의 노드를 가진 방대한 사전 데이터를 단 9.4MB로 압축했으며, 이는 일반적인 CSV 방식 대비 훨씬 효율적인 수치입니다. * **한글 최적화 인코딩**: 한글을 2바이트로 처리하고 외국어는 플래그로 구분하는 등 별도의 내부 인코딩 방식을 적용하여 사전의 물리적 크기를 추가로 절감했습니다. ### Select 비트 연산 최적화와 성능 개선 * **병목 지점 파악**: LOUDS 구조에서 특정 노드의 위치를 찾는 `select0` 연산이 전체 사전 탐색 시간의 약 90%를 점유하는 성능 병목임을 확인했습니다. * **인덱싱 기반 탐색**: 비트 시퀀스를 64비트 청크로 나누고 각 구간까지의 '0의 누적 개수'를 미리 기록하여, 바이너리 서치를 통해 탐색 범위를 획기적으로 좁혔습니다. * **비트 병렬 처리**: 청크 내부에서는 비트 연산과 시프트를 조합한 병렬 카운팅 기법을 활용하여 하드웨어 수준에서 연산 속도를 극대화했습니다. ### 실용적인 결론 모바일 클라이언트 환경처럼 리소스가 극도로 제한된 곳에서는 무거운 딥러닝 모델보다 최적화된 클래식 알고리즘이 더 강력한 대안이 될 수 있습니다. 특히 LOUDS와 같은 정적 트리 압축 기법과 비트 수준의 연산 최적화를 결합하면, 성능 손실 없이도 극적인 용량 절감이 가능함을 이 개발 사례가 증명하고 있습니다.

ai nlp optimization mobile-development+5

kakao 2025년 12월 18일

더 똑똑하고 효율적인 Kanana-2 오픈소스 공개 - tech.kakao.com (새 탭에서 열림)

카카오는 사용자의 명령 맥락을 파악하고 능동적으로 동작하는 에이전틱 AI(Agentic AI) 구현에 최적화된 차세대 언어모델 'Kanana-2'를 오픈소스로 공개했습니다. 글로벌 프런티어 모델인 Qwen3-30B-A3B와 대등한 성능을 갖춘 이번 모델은 도구 호출(Tool Calling)과 지시 이행 능력을 대폭 강화하여 실무적인 활용도를 극대화했습니다. 특히 한국어 처리 효율성을 30% 이상 개선하고 추론 특화 모델을 라인업에 추가함으로써, 고도화된 논리적 사고가 필요한 서비스 개발에 강력한 토대를 제공합니다. **다양한 연구 및 서비스 요구사항을 충족하는 세 가지 모델 라인업** * **Kanana-2-30b-a3b-base**: 사전 학습 단계의 웨이트를 포함한 기본 모델로, 연구자들이 자체 데이터를 활용해 자유롭게 파인 튜닝하여 새로운 모델을 개발할 수 있는 기초가 됩니다. * **Kanana-2-30b-a3b-instruct**: 사용자의 지시를 정확히 이해하고 수행하는 능력을 극대화한 버전으로, 일반적인 대화 및 작업 수행에 최적화되어 있습니다. * **Kanana-2-30b-a3b-thinking**: 카카오가 처음으로 선보이는 추론 특화 모델로, 수학이나 코딩 등 복잡한 논리적 사고가 필요한 과제에서 뛰어난 성능을 발휘하며 높은 지시 이행 능력을 동시에 유지합니다. **에이전틱 AI 구현을 위한 도구 호출 및 지시 이행 성능 강화** * **Multi-turn Tool Calling**: 외부 도구를 자유자재로 다루는 능력을 이전 모델(Kanana-1.5) 대비 3배 이상 개선하여, 모델 컨텍스트 프로토콜(MCP) 활용성을 극대화했습니다. * **정교한 지시 이행**: 사용자의 복잡하고 단계적인 요구사항을 정확히 파악하여 결과물을 생성하며, 추론 모델에서도 이러한 성능이 저하되지 않도록 설계되었습니다. * **다국어 지원 확대**: 기존 한국어와 영어에 더해 일본어, 중국어, 태국어, 베트남어까지 총 6개 국어를 지원하여 글로벌 서비스 대응 능력을 높였습니다. **대규모 트래픽 처리를 위한 아키텍처 및 효율성 개선** * **MLA(Multi-head Latent Attention)**: 메모리 점유를 압축하여 긴 문맥(Long Context)을 효율적으로 처리할 수 있도록 설계되었습니다. * **MoE(Mixture of Experts)**: 추론 시 필요한 파라미터만 활성화하는 전문가 혼합 구조를 통해 거대 모델의 성능은 유지하면서 연산 비용과 응답 속도를 획기적으로 개선했습니다. * **한국어 최적화 토크나이저**: 새롭게 학습된 토크나이저를 통해 기존 모델 대비 한국어 토큰 효율을 30% 이상 향상시켜, 더 적은 자원으로 빠른 응답(High Throughput)이 가능합니다. **실용적인 결론 및 제안** Kanana-2는 고성능과 효율성을 동시에 잡은 모델로, 특히 한국어 기반의 복잡한 에이전트 서비스를 구축하려는 개발자에게 최적의 선택지입니다. 허깅페이스(Hugging Face)를 통해 Base 모델부터 추론 특화 모델까지 모두 공개되어 있으므로, 목적에 맞는 모델을 선택해 즉시 파인 튜닝하거나 서비스에 적용해 보실 것을 추천합니다.

kakao 2025년 12월 16일

MongoDB 8.0 업그레이드 해야하는 12가지 이유 - tech.kakao.com (새 탭에서 열림)

MongoDB 8.0은 기존 버전에서 지적받았던 성능상의 아쉬움을 해결하고 안정성을 극대화하는 데 초점을 맞춘 중대한 업데이트입니다. 약 5년의 장기 지원 정책을 도입하여 운영의 지속성을 보장하며, 쓰기 처리량 향상과 쿼리 최적화 등 기술적 아키텍처 개선을 통해 실질적인 성능 이득을 제공합니다. 특히 대규모 트래픽을 처리하는 환경에서 쓰기 지연 시간을 줄이고 복제 효율을 높인 점이 이번 버전의 핵심적인 결론입니다. **장기 지원 정책과 온프레미스 지원 확대** * MongoDB 8.0은 출시 후 5년간(2029년 10월까지) 지원되는 사실상의 LTS(Long-Term Support) 버전으로, 잦은 업그레이드 부담을 줄여줍니다. * 기존에 클라우드(Atlas)에만 우선 적용되던 최신 기능들을 온프레미스 환경에서도 마이너 릴리스를 통해 빠르게 도입할 수 있도록 정책이 변경되었습니다. * 이를 통해 운영 조직은 안정 중심의 운영과 신규 기능 도입 사이에서 유연한 전략을 선택할 수 있는 기반을 마련했습니다. **Write Concern "majority" 성능의 혁신적 개선** * 쓰기 완료 판단 기준을 데이터가 파일에 물리적으로 기록되는 시점(`lastApplied`)에서 Oplog에 기록되는 시점(`lastWritten`)으로 변경했습니다. * 이러한 내부 동작 방식의 변화로 세컨더리 노드의 적용 대기 시간이 단축되어, 쓰기 처리량이 이전 버전 대비 약 30~47% 향상되었습니다. * 세컨더리에서 즉시 읽기 시 발생할 수 있는 데이터 일관성 문제는 '인과적 일관성 세션'을 통해 보완 가능하도록 설계되었습니다. **벌크 쓰기(Bulk Write) 및 Oplog 처리 최적화** * 단일 요청으로 여러 컬렉션에 대한 대량 작업을 동시에 수행할 수 있는 새로운 데이터베이스 명령어가 도입되었습니다. * 기존에 문서마다 개별적으로 생성되던 Oplog 엔트리를 최대 500개까지 하나로 묶어 기록하는 최적화가 적용되었습니다. * 이 개선을 통해 세컨더리 노드의 복제 지연(Replication Lag) 발생 가능성이 크게 낮아지고 전체적인 쓰기 효율이 개선되었습니다. **단건 조회 최적화를 위한 Express Plan 도입** * `_id` 기반의 단건 조회나 유니크 인덱스를 사용하는 쿼리에 대해 복잡한 옵티마이저 과정을 생략하는 'Express Plan'이 추가되었습니다. * 쿼리 파싱 직후 즉시 실행 경로를 확보함으로써 불필요한 플래닝 오버헤드를 제거하고 응답 속도를 극대화했습니다. * 이는 빈번하게 발생하는 PK 기반 조회의 효율을 높여 전체 시스템의 리소스 소모를 줄여주는 효과를 제공합니다. MongoDB 8.0은 성능 저하에 대한 우려를 불식시키기 위해 아키텍처 수준의 최적화를 대거 반영한 버전입니다. 5년이라는 긴 지원 기간과 가시적인 성능 향상을 고려할 때, 대규모 분산 환경을 운영하는 조직이라면 안정화 기간을 거친 후 8.0으로의 업그레이드를 적극적으로 검토할 것을 추천합니다. 특히 쓰기 성능 병목이나 복제 지연 문제를 겪고 있는 서비스에 강력한 해결책이 될 것입니다.

mongodb query-optimization mongodb-8-0 database-performance+4

kakao 2025년 12월 11일

한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기 - tech.kakao.com (새 탭에서 열림)

카카오는 한국어 환경과 다양한 서비스 시나리오에 최적화된 멀티모달 임베딩 모델인 'Kanana-v-embedding'을 개발했습니다. 이 모델은 비전-언어 모델(VLM) 아키텍처를 기반으로 텍스트와 이미지를 하나의 공통된 의미 공간에 표현하여, 검색, 추천, RAG(검색 증강 생성) 등에서 발생하는 복합적인 모달리티 요구사항을 효과적으로 해결합니다. 특히 지시어(Instruction) 기반 학습과 가변 차원 임베딩 기술을 적용하여 실무적인 유연성과 성능을 동시에 확보한 것이 특징입니다. **멀티모달 임베딩의 개념과 VLM 기반 아키텍처** * 텍스트와 이미지를 고정 길이의 벡터로 변환하여 동일한 의미 공간상에 배치함으로써, 서로 다른 형태의 데이터 간 유사도를 코사인 유사도 등으로 직접 비교할 수 있게 합니다. * 기존 CLIP 모델이 텍스트와 이미지를 독립적으로 처리하여 복합 입력에 한계가 있었던 점을 극복하기 위해, VLM 기반 프레임워크를 채택했습니다. * 텍스트와 이미지 토큰이 트랜스포머 레이어를 거친 후, 마지막 히든 스테이트의 [EOS] 토큰 표현을 추출하고 정규화하여 최종 임베딩으로 사용합니다. **지시어 기반 학습 및 가변 차원 지원** * 검색, 추천, 분류 등 수행하려는 태스크의 목적에 맞는 지시어(Instruction)를 입력 쿼리와 함께 제공하여, 목적에 특화된 임베딩 표현을 생성할 수 있도록 설계했습니다. * 마트료시카 표현 학습(Matryoshka Representation Learning) 기법을 적용하여 64차원부터 2,048차원까지 다양한 임베딩 크기를 지원합니다. * 이를 통해 지연 시간(Latency)이 중요한 서비스 환경과 고성능 품질이 필요한 환경 모두에 유연하게 대응할 수 있는 운영 편의성을 갖췄습니다. **성능 극대화를 위한 학습 테크닉과 KoEmbed 데이터셋** * 그래디언트 캐싱(Gradient Caching) 기술을 도입하여 GPU 메모리 한계를 극복하고 대규모 배치 사이즈(8k 이상) 학습을 구현함으로써 대조 학습의 효율을 극대화했습니다. * 하드 네거티브 마이닝(Hard Negative Mining)을 통해 정답과 유사하지만 실제로는 오답인 샘플을 학습에 활용하여 모델의 변별력을 높였습니다. * 한국어와 카카오 서비스 특유의 문맥을 반영하기 위해 텍스트-텍스트, 텍스트-이미지 쌍으로 구성된 대규모 내부 데이터셋 'KoEmbed'를 구축하여 학습에 투입했습니다. **벤치마크를 통한 성능 검증 및 실무 적용** * 한국어 텍스트 임베딩 성능 측정 지표인 Ko-StrategyQA를 포함한 MTEB 벤치마크에서 기존 모델들을 제치고 종합 1위를 기록하며 탁월한 한국어 이해 능력을 입증했습니다. * 멀티모달 검색 성능 지표인 M-BEIR에서도 글로벌 수준의 성능을 확인하여 텍스트-이미지 교차 검색 및 추천에서의 경쟁력을 확보했습니다. * 이 모델은 카카오톡 앨범 검색, 유사 상품 추천, 멀티모달 RAG 시스템 등 다양한 실 서비스에 적용되어 사용자 경험을 개선하는 데 활용될 예정입니다. Kanana-v-embedding은 단순한 기술적 연구를 넘어 한국어 사용자에게 실질적인 가치를 제공하기 위해 최적화된 모델입니다. 한국어 서비스 환경에서 텍스트와 이미지를 동시에 다루며 성능과 효율성을 모두 잡아야 하는 개발자들에게 이 모델의 대조 학습 최적화 기법과 가변 차원 임베딩 방식은 훌륭한 기술적 이정표가 될 것입니다.

kakao 2025년 12월 11일

더욱 똑똑하게 답하며, 더욱 풍부한 감정표현을 향한 Kanana-o의 진화 과정 - tech.kakao.com (새 탭에서 열림)

카카오의 멀티모달 언어모델 Kanana-o는 텍스트, 이미지, 음성을 동시에 이해하고 처리하여 사람처럼 자연스러운 상호작용을 지향하는 통합 모델입니다. 연구팀은 모델이 입력 모달리티에 관계없이 일관된 지능을 발휘하도록 고품질의 복합 지시 이행 데이터를 구축하고, 음성 토큰화 기술을 통해 풍부한 감정 표현력을 확보했습니다. 그 결과 Kanana-o는 한국어 맥락을 깊이 있게 이해하며 복잡한 명령을 수행하는 동시에, 사람과 유사한 섬세한 음성 반응을 제공하는 독보적인 성능을 입증했습니다. **멀티모달 지시 이행 능력의 고도화** * 단순한 질의응답을 넘어 요약, 문체 변환, 형식 제한 등 복합적인 제약 조건이 포함된 오디오 기반 지시 이행 데이터셋을 직접 설계했습니다. * 텍스트 입력 시에는 뛰어난 성능을 보이지만 오디오 입력 시 성능이 저하되는 기존 모델들의 한계를 극복하기 위해, 모달리티에 무관하게 안정적인 지능을 유지하는 일반화(Domain-generalization) 작업에 집중했습니다. * 한국어 음성 지시 이행 벤치마크인 Speech-KoMT-Bench에서 글로벌 경쟁 모델 대비 압도적인 성능을 기록하며 한국어 환경에서의 우수성을 증명했습니다. **이미지-오디오-텍스트 통합 데이터 구축** * 이미지를 보면서 음성으로 질문하는 등 서로 다른 모달리티가 결합된 시나리오에서도 정교하게 동작하도록 이미지-오디오-텍스트 통합 데이터셋을 구축했습니다. * 시각 정보와 청각 정보를 동시에 정렬(Alignment)함으로써, 모델이 복합적인 입력 환경에서도 사용자의 의도와 맥락을 정확히 파악할 수 있도록 학습시켰습니다. **오디오 토큰화를 통한 자연스러운 감정 표현** * 기존의 단조로운 음성 합성 방식을 넘어, 음성 데이터를 이산적인 토큰(Discrete Audio Tokens)으로 변환하여 언어모델이 텍스트와 함께 예측하도록 설계했습니다. * 이를 통해 단순한 텍스트 전달이 아닌, 발화자의 감정선, 호흡, 웃음소리, 억양 등 미묘한 운율(Prosody) 정보를 풍부하게 담아낼 수 있게 되었습니다. * 사용자의 감정을 실시간으로 인식하고 이에 어울리는 목소리 톤으로 응답함으로써, 기계적인 비서가 아닌 실제 사람과 대화하는 듯한 정서적 유대감을 제공합니다. Kanana-o는 단순히 기술적 지표를 높이는 것에 그치지 않고, 실제 서비스 환경에서 사용자가 체감할 수 있는 '이해력'과 '표현력'의 조화를 이루어냈습니다. 한국어에 특화된 강력한 지능과 섬세한 감성 표현 기술의 결합은 향후 더욱 몰입감 있고 실질적인 도움을 주는 AI 경험을 제공할 것으로 기대됩니다.

ai kanana instruction-following speech-recognition+4

kakao 2025년 12월 3일

AI TOP 100이 우리에게 남긴 것들 - tech.kakao.com (새 탭에서 열림)

카카오의 'AI Native 전략 팀'은 단 2주라는 물리적으로 불가능해 보이는 일정 속에서 AI를 극한으로 활용해 'AI TOP 100' 경진대회 시스템을 성공적으로 구축했습니다. 이번 프로젝트는 단순한 도구 도입을 넘어 기획서를 AI 프로토타입으로 대체하고 개발의 99%를 AI에게 위임하는 등 소프트웨어 개발 패러다임의 근본적인 전환을 증명했습니다. 결국 AI는 개발자를 대체하는 것이 아니라, 개발자가 더 높은 차원의 의사결정과 설계에 집중할 수 있도록 능력을 확장하는 강력한 파트너임을 확인시켜 주었습니다. **전통적 방법론을 탈피한 AI 네이티브 전략** * **물리적 한계 돌파:** 기획부터 배포까지 통상 수개월이 걸리는 공정을 예선과 본선 각각 2주라는 초단기 일정으로 단축하기 위해 AI 정면 돌파를 선택했습니다. * **기획서 없는 개발:** 상세 기획서나 화면 설계서 대신, 멤버 전원이 AI로 실제 작동하는 프로토타입을 제작하여 이를 바탕으로 요구사항을 확정하는 '초고속 프로토타이핑' 방식을 도입했습니다. * **PoC 중심의 애자일:** 추상적인 컨셉을 AI에게 던져 즉시 작동 가능한 PoC(Proof of Concept) 코드를 생성하고, 이를 검증하며 기능을 확정하는 '구현-피드백-전환' 사이클을 극단적으로 짧게 가져갔습니다. **AI와 개발자의 협업 모델 변화** * **99%의 코드 위임:** Cursor와 Claude Code 등을 활용하여 전체 코드의 대부분을 AI가 작성하게 했으며, 개발자는 직접 타이핑하는 대신 AI에게 의도를 설명하고 결과물을 검토하는 역할에 집중했습니다. * **압도적인 생산성:** 한 명의 개발자가 예선과 본선의 모든 프론트엔드 화면을 전담하거나, 하루에 2억 개의 토큰을 소모하며 시스템을 구축하는 등 기존 개발 방식으로는 불가능한 퍼포먼스를 기록했습니다. * **직무 경계의 확장:** 데이터 엔지니어가 백엔드 개발을 수행하고, 비개발자가 AI로 복잡한 알고리즘 문제를 해결하는 등 AI를 통해 개인의 기술적 한계를 넘어선 역할 수행이 가능해졌습니다. **기술적 난제와 인간의 역할(The Last Mile)** * **모델 간 논리 충돌:** AI가 제시하는 논리가 매우 탄탄하여 구성원 간 의견이 대립할 때, 최종적인 유지보수성과 시스템의 방향성을 고려해 최적의 답을 선택하는 것은 결국 시니어 개발자의 '경험'이었습니다. * **최종 의사결정의 주체:** AI는 수많은 해결책과 초안을 제시할 수 있지만, 해당 서비스의 특수성과 미래 가치를 판단하여 방향키를 쥐는 것은 여전히 사람의 몫임을 재확인했습니다. * **새로운 개발 표준의 정립:** AI 페어 프로그래밍이 일상화되면서, 개발자의 사고 흐름이 '선형적 구현'에서 'AI와 실시간 아이디에이션 및 즉각적 검증'으로 재편되었습니다. **실용적인 결론 및 제언** 미래의 개발 경쟁력은 AI를 단순한 보조 도구로 쓰는 것을 넘어, 업무 프로세스 전체를 AI 중심으로 재설계하는 'AI 네이티브' 역량에 달려 있습니다. 이제 개발자는 바닥부터 코드를 짜는 시간보다 AI가 생성한 결과물의 적합성을 판단하고 아키텍처 관점에서 통합하는 능력을 키워야 합니다. 'PoC 중심 개발'을 통해 불확실성을 속도로 돌파하는 경험을 쌓는 것이 새로운 개발 표준에 적응하는 핵심이 될 것입니다.

ai gemini claude cursor+5

kakao 2025년 11월 30일

YEYE가 지켜보고 있다–카카오의 공격 표면 관리 이야기 - tech.kakao.com (새 탭에서 열림)

카카오는 복잡해지는 외부 공격 표면을 체계적으로 관리하기 위해 통합 ASM(Attack Surface Management) 도구인 'YEYE'를 개발하여 운영 중입니다. YEYE는 자산 식별부터 취약점 스캐닝, 데이터 연관 분석까지 자동화하며, 이를 'DSR(Daily Security Review)'이라는 매일의 보안 프로세스와 결합해 실질적인 리스크를 선제적으로 제거합니다. 이를 통해 기술적 자동화와 인적 리뷰가 유기적으로 연결된 견고한 보안 방어 체계를 구축하고 있습니다. ### 공격 표면 관리의 핵심, YEYE와 DSR * 2023년 탄생한 YEYE는 산재된 보안 도구를 통합하여 외부 접점이 있는 IP, 도메인, 포트, 모바일 앱 등 모든 디지털 자산을 가시화합니다. * 단순한 도구 도입에 그치지 않고, 매일 오전 외부 피드와 공개 취약점을 검토하는 DSR(Daily Security Review) 프로세스를 통해 사람에 의한 심층 분석을 병행합니다. * 이를 통해 보안 검수를 받지 않은 자산 노출이나 최신 CVE 이슈에 대해 공격자보다 한발 앞선 대응 체계를 유지합니다. ### 자산의 체계적 정의와 데이터 모델링 * 자산을 범위(In/Out), 타입(Domain/IP/Port 등), 식별 여부(Known/Unknown)로 분류하여 자산이 확장되더라도 일관된 관리 규칙을 적용합니다. * 다양한 소스에서 수집된 정보를 표준화하고 레이블링(Labeling)하여 데이터의 근본적인 성격을 정의하고 활용도를 높입니다. * 자산과 취약점, CVE, 담당자 정보를 다형성 구조로 연결하여 특정 보안 이슈 발생 시 영향 범위를 즉각적으로 파악하고 조치 이력을 추적할 수 있습니다. ### 대규모 스캔 환경의 기술적 최적화 * **네트워크 병목 해소:** 내부 물리 서버의 대역폭 한계를 극복하기 위해 퍼블릭 클라우드를 병행 운영함으로써 대규모 동시 요청 시 발생하는 지연 문제를 해결했습니다. * **병렬 스캔 구조 구현:** 오픈소스 스캐너의 단일 프로세스 한계를 넘기 위해 스케줄러와 큐, 다수의 워커가 독립적으로 작동하는 분산 병렬 처리 구조를 직접 설계했습니다. * **비용 및 성능 균형:** 고사양 서버를 무조건 투입하기보다 스캔 특성에 맞는 최소 스펙을 도출하고, 적정 스펙의 서버를 효율적으로 분산 확장하는 가성비 기반 인프라를 구축했습니다. * **서비스 영향 최소화:** 스캔 트래픽을 공격으로 오해하지 않도록 고정 IP와 전용 User-Agent 정보를 제공하며, 초당 호출 수와 타임아웃 등 핵심 파라미터를 정밀하게 튜닝했습니다. 공격 표면 관리는 단순히 자산을 찾는 기술을 넘어, 수집된 데이터를 자산 중심으로 연결하고 매일 반복되는 리뷰 프로세스를 내재화할 때 완성됩니다. 대규모 인프라를 운영하는 조직이라면 네트워크 병목과 비용 효율을 고려한 분산 스캔 구조를 설계하고, 서비스 부하를 고려한 정밀한 튜닝을 통해 공격자보다 먼저 약점을 찾아내는 체계를 갖출 것을 권장합니다.

kakao 2025년 11월 23일

[AI_TOP_100] 문제 출제 후기 – 기술이 아닌, 사람을 묻다. - tech.kakao.com (새 탭에서 열림)

AI 기술이 비약적으로 발전하는 시대에 도구를 다루는 인간의 실제 문제 해결 역량을 측정하기 위해 ‘AI TOP 100’ 경진대회가 기획되었습니다. 단순히 AI를 사용하는 수준을 넘어, 인간과 AI의 긴밀한 협업 과정을 통해 복잡한 현실 문제를 해결하고 최적의 의사결정을 내리는 ‘문제 해결자’를 선별하는 데 초점을 맞추었습니다. 결과물뿐만 아니라 AI의 한계를 인간의 통찰로 보완해 나가는 '과정' 자체를 핵심 평가 지표로 삼은 것이 이번 대회의 결론입니다. **AI와 인간의 협업 루프(Human-in-the-loop) 설계** * 단순히 문제를 복사하여 붙여넣는 방식으로는 해결할 수 없도록, 사람의 분석과 AI의 실행, 그리고 다시 사람의 검증이 순환되는 구조를 지향했습니다. * 사람은 직관적으로 파악하지만 AI는 분석하기 어려운 데이터 구조(식단표, 복잡한 표의 행/열 관계 등)를 제공하여 인간의 사전 가이드가 성능을 좌우하게 설계했습니다. * 이미지 생성과 피드백 분석, 프롬프트 개선 과정을 에이전트에게 위임하여 자동화 파이프라인을 구축하는 등 고도화된 협업 능력을 측정했습니다. **'딸깍' 방지를 위한 입체적인 난이도 설계** * 최신 AI 모델이 단 한 번의 프롬프트(One-shot)로 정답을 맞히지 못하도록 의도적인 기술적 제약과 논리적 미로를 문제 속에 배치했습니다. * '낮은 진입 장벽과 높은 천장' 원칙에 따라, 초보자도 쉽게 접근할 수 있는 시작 문항부터 깊은 통찰이 필요한 킬러 문항까지 '난이도 사다리' 구조를 도입했습니다. * 특정 프레임워크에 국한되지 않고 출제자가 예상치 못한 창의적인 방식으로도 문제를 해결할 수 있는 열린 구조를 유지했습니다. **현실의 복잡성을 반영한 4가지 문제 패턴** * **분석 및 정의(Insight):** 정답이 없는 복합 데이터 속에서 유의미한 문제나 기회를 스스로 발견하는 역량을 평가합니다. * **구현 및 자동화(Action):** 정의된 문제를 해결하기 위해 AI 솔루션을 실제 작동하는 코드나 워크플로로 구현하는 능력을 측정합니다. * **전략 및 창의(Persuasion):** 기술적 솔루션을 비기술 이해관계자에게 설득력 있게 전달하기 위한 논리와 창의적 콘텐츠 생성 능력을 확인합니다. * **최적화 및 의사결정(Decision):** 제약 조건 하에서 목표를 최대화하는 최적의 의사결정 시뮬레이션을 수행합니다. **엄격한 검증을 거친 문제 고도화 파이프라인** * 아이디어 단계부터 최종 확정까지 4단계의 파이프라인을 구축하고, 출제위원 내부 테스트 및 알파·베타 테스트를 통해 문제의 신뢰도를 검증했습니다. * AI 모델이 매일 업데이트되어 어제의 난제가 오늘의 쉬운 문제가 되는 환경에 대응하기 위해 지속적인 실증 테스트를 반복했습니다. * 문제의 겉보기 난이도가 아니라 실제 해결에 필요한 노력 비용을 기준으로 점수를 재조정하는 '캘리브레이션' 과정을 거쳐 변별력을 확보했습니다. AI 시대의 진정한 경쟁력은 도구의 기능을 단순히 암기하는 것이 아니라, AI의 한계를 명확히 이해하고 이를 인간의 기획력으로 보완하여 실질적인 가치를 만들어내는 데 있습니다. 이번 출제 후기는 기술보다 '그 기술을 다루는 사람'의 사고방식이 더 중요하다는 점을 강조하며, 앞으로의 AI 리터러시 교육과 평가가 나아가야 할 방향을 제시합니다.

ai llm prompt-engineering ai-agent+4

kakao 2025년 11월 19일

POPM 과정은 어떻게 하나의 ‘제품’이 되었나 - tech.kakao.com (새 탭에서 열림)

카카오의 POPM 교육은 단순한 지식 전달 과정을 넘어, PO와 PM이 공통의 언어로 협업하고 문제를 해결할 수 있도록 돕는 하나의 '제품'으로 설계되었습니다. 교육 과정을 제품 개발 프로세스와 동일하게 '구조화'와 '반복 실험'의 관점에서 접근했으며, 수강생의 피드백을 데이터로 치환하여 지속적으로 기능을 개선하듯 커리큘럼을 고도화했습니다. 결과적으로 이 과정은 전략이 실제 실행으로 이어지도록 만드는 조직 차원의 구조적 프레임워크를 구축하는 성과를 거두었습니다. **POPM 교육의 탄생 배경과 목적** * PO와 PM의 역할이 모호하고 비가시적인 업무가 많아 발생하는 의사결정의 혼선을 줄이기 위해 시작되었습니다. * 문제 정의, 지표 해석, 실험 설계 등 실무에서 반복되는 질문들에 대해 조직이 공유할 수 있는 공통 언어를 수립하는 것이 핵심 목표입니다. * PO의 전략적 고민과 PM의 실행이 단절되지 않고 하나의 목표로 이어질 수 있는 구조적 기틀을 마련하고자 했습니다. **제품 개발 프로세스를 닮은 교육 설계** * 파일럿 과정(1기)의 8개 세션을 시작으로, 매 기수마다 '사용자 피드백'을 반영하여 구조를 최적화했습니다. * 3기부터는 '전략 → 지표 → 실험 → 디자인 → 실행'의 5개 핵심 세션으로 고정하여 흐름을 단순화하고 몰입도를 높였습니다. * 교육 설계자는 PM의 관점에서 교육을 하나의 제품으로, 각 세션을 기능으로, 각 기수를 소프트웨어 버전으로 정의하여 반복 개선을 수행했습니다. **데이터 기반의 기회 점수 도출과 리디자인** * 수강생 대상의 사전/사후 설문을 통해 각 세션의 '중요도'와 '만족도' 매트릭스를 분석했습니다. * 중요도는 높으나 만족도가 낮은 영역(예: 데이터/지표 세션)을 '기회 영역'으로 정의하고, 이를 제품 기능의 우선순위처럼 취급하여 최우선적으로 개선했습니다. * 단순한 내용 수정을 넘어 슬라이드 재구성, 실습 난이도 조정, 워크시트 포맷 변경 등 구조적인 해결책을 적용하여 기회 점수를 관리했습니다. **설계자가 얻은 구조적 인사이트** * 교육은 사람의 변화보다 '구조의 누적'에 집중해야 하며, 시스템이 바뀌지 않으면 동일한 시행착오가 반복된다는 점을 확인했습니다. * 지식의 전달보다 '질문의 리듬'을 설계하는 것이 중요하며, 슬라이드 하나에도 질문과 예시, 흐름을 유기적으로 배치하여 수강생의 사고를 유도했습니다. * 실습의 목적은 정답 작성이 아니라 '생각의 구조화'에 있으며, 실습 과정이 실제 팀의 업무 루틴으로 자연스럽게 이어지도록 설계했습니다. 조직 내 교육이나 프로세스를 설계할 때 이를 하나의 고정된 커리큘럼이 아닌, 지속적으로 개선 가능한 '제품'으로 바라보는 시각이 필요합니다. 수강생을 사용자로 정의하고 그들의 불편함을 데이터로 측정하여 구조를 개선해 나간다면, 교육은 단순한 학습을 넘어 조직의 실행력을 높이는 강력한 도구가 될 수 있습니다.

data-analysis product-management agile product-design+3

kakao 2025년 11월 19일

우리가 진짜 문제를 풀고 있었을까? — POPM 과정이 남긴 질문 - tech.kakao.com (새 탭에서 열림)

카카오의 POPM 교육 과정은 단순한 지식 전달을 넘어, 파편화된 실무 개념을 구조적으로 정리하고 이를 반복 가능한 '문제 해결 루프'로 연결하는 데 집중했습니다. 제품 전략이 팀의 일상적인 실행 지침이 되도록 돕는 이 과정은, 단순한 기능 배포가 아닌 '진짜 문제를 해결하고 있는가'라는 본질적인 질문을 실무에 던지게 합니다. 이를 통해 참가자들은 가설 검증과 지표 분석을 바탕으로 한 데이터 중심의 의사결정 체계를 실무에 직접 이식하는 성과를 거두었습니다. **전략적 사고와 지표의 재발견** * 전략을 거창한 구호가 아닌, 실무 현장에서 팀원들이 판단을 내릴 수 있게 돕는 '판단 기준'으로 재정의하고 MECE, MVP 등의 개념을 맥락에 맞게 재구성했습니다. * 지표를 단순한 데이터가 아니라 제품의 문제를 드러내는 '언어'로 인식하며, 퍼널·리텐션·코호트·LTV 등의 지표가 문제 정의와 어떻게 연결되는지 체득했습니다. * '내가 해석하는 지표가 우리 제품의 본질과 맞는가'라는 관점의 전환을 통해 데이터 해석의 정교함을 높였습니다. **실험 설계와 UX의 본질적 접근** * 실험의 성공 여부보다 '실패한 실험을 해석하는 루틴'을 중시하며, MASS 조건(측정 가능성, 기인 가능성, 민감도, 단기 확인)을 통한 구체적인 실험 체크리스트를 활용합니다. * UX 디자인을 단순한 심미적 요소가 아닌 '사용자 맥락에 기반한 설계'로 정의하고, 카카오 내부 서비스의 실제 사례를 통해 적합한 설계를 스스로 질문하게 유도했습니다. * 작게 시작하는 실험의 중요성을 강조하여 실무에서 즉시 가설을 검증해 볼 수 있는 자신감을 배양했습니다. **실무로 이어지는 실행 구조 설계** * '문제 정의 → 가설 → 지표 → 검증 → 회고'로 이어지는 루틴을 확립하여, 릴리스가 끝이 아닌 학습과 다음 우선순위 설정의 시작이 되도록 변화시켰습니다. * 과제 시작 전 '문제 정의, 기대 행동, 확인 지표'를 명문화하는 템플릿을 도입하고, 사용자 스토리 방식을 통해 팀 전체가 업무의 목적을 공유하도록 했습니다. * 주간 또는 격주 단위로 지표 확인 및 인사이트 공유 시간을 고정하여, 실행이 일시적인 이벤트가 아닌 조직의 습관으로 자리 잡게 했습니다. 프로덕트 매니저는 단순히 기능을 배포하는 것에 만족하지 말고, 배포 이후의 지표 변화가 당초 정의한 문제를 실제로 해결했는지 확인하는 '루프 기반 실행' 구조를 조직 내에 안착시켜야 합니다. "지금 우리가 하고 있는 이 일이 정말 문제 해결을 위한 실행인가?"라는 질문을 끊임없이 던지는 것이 제품 성장의 핵심입니다.

data-analysis product-management product-strategy agile-methodology+3

태그로 필터