supervised-fine-tuning

4 개의 포스트

LLM에게 베이지안처럼 추 (새 탭에서 열림)

거대언어모델(LLM)이 사용자와 상호작용하며 최적으로 추론하도록 하기 위해, 베이즈 정리(Bayes' rule)를 따르는 모델의 예측 과정을 모방하도록 학습시키는 '베이지안 티칭(Bayesian teaching)' 프레임워크가 제안되었습니다. 기존 LLM은 새로운 정보가 주어져도 확률적 추론에 한계를 보이며 성능이 정체되는 경향이 있었으나, 최적의 베이지안 모델을 파인튜닝 지표로 삼음으로써 불확실성을 관리하고 신념을 업데이트하는 능력을 크게 개선했습니다. 연구 결과, 이 방식은 특정 작업의 성능을 높일 뿐만 아니라 학습하지 않은 새로운 도메인으로의 일반화 가능성까지 입증하며 LLM의 근본적인 추론 기술 향상 가능성을 보여주었습니다. **LLM의 확률적 추론 능력 평가** * **항공편 추천 시뮬레이션:** 출발 시간, 소요 시간, 경유 횟수, 비용 등 다양한 선호도를 가진 가상 사용자와 5단계에 걸쳐 상호작용하며 최적의 항공편을 추천하는 과제를 수행했습니다. * **베이지안 어시스턴트와 비교:** 최적의 베이지안 전략을 따르는 모델을 기준점으로 삼아, LLM이 새로운 정보에 따라 사용자 선호도 추정치를 얼마나 잘 업데이트하는지 측정했습니다. * **성능 정체 현상 발견:** 일반적인 LLM은 첫 번째 상호작용 이후 성능이 정체되는 반면, 베이지안 모델은 정보가 쌓일수록 정확도가 지속적으로 향상되는 격차를 보였습니다. 이는 LLM이 새로운 정보를 통합하여 내부 표현을 수정하는 데 취약함을 의미합니다. **베이지안 티칭 프레임워크의 구조** * **사전 신념과 사후 신념의 순환:** 모델이 가진 기존 지식(Prior)을 새로운 증거(Evidence)와 결합하여 업데이트된 지식(Posterior)으로 전환하는 과정을 지도 학습(Supervised Fine-tuning)으로 구현했습니다. * **오라클 티칭(Oracle Teaching):** 사용자의 실제 정답(완벽한 선호도 정보)만을 학습 데이터로 제공하는 방식으로, 모델이 항상 정답만을 맞히도록 유도합니다. * **베이지안 티칭(Bayesian Teaching):** 베이지안 어시스턴트가 정보가 부족한 상황에서 내린 '확률적인 최선의 추측' 과정을 모방하게 하는 일종의 증류(Distillation) 기법입니다. * **불확실성 학습:** 베이지안 티칭은 모델에게 정답뿐만 아니라, 정보가 불충분할 때 가질 수 있는 불확실성을 유지하고 논리적으로 추론하는 법을 가르칩니다. **학습 결과 및 추론 기술의 일반화** * **추론 정확도 역전:** 베이지안 티칭을 거친 LLM은 정답 데이터만을 학습한 오라클 티칭 모델보다 실제 사용자 선택을 예측하는 데 더 높은 성과를 거두었습니다. * **베이지안 모델과의 높은 일치도:** 파인튜닝된 LLM은 정보 업데이트 방식에서 베이지안 모델과 유사한 패턴을 보였으며, 이는 모델이 단순 암기가 아닌 확률적 사고방식을 체득했음을 보여줍니다. * **도메인 확장성:** 훈련에 사용되지 않은 다른 유형의 작업에서도 베이지안 추론 방식을 적용하는 능력이 향상되었습니다. 이는 LLM이 예시를 통해 일반적인 추론 기술을 학습하고 이를 새로운 영역으로 전이할 수 있음을 시사합니다. LLM을 단순한 챗봇을 넘어 지능형 에이전트로 활용하기 위해서는 단순히 정답(Ground Truth)만을 학습시키기보다, 베이지안 모델과 같은 최적의 사고 과정을 데이터화하여 학습시키는 전략이 유효할 것으로 보입니다. 이는 특히 사용자 개인화가 중요한 추천 시스템이나 복잡한 의사결정 지원 시스템 구축에 실용적인 해결책이 될 수 있습니다.

Kanana-2 개발기 (2): 개선된 post-training recipe를 중심으로 (새 탭에서 열림)

카카오는 차세대 언어모델 Kanana-2를 공개하며, 단순한 대화형 AI를 넘어 에이전트 환경에 최적화된 성능을 구현하기 위한 고도화된 Post-training 레시피를 적용했습니다. 이번 모델은 Pre-training과 Post-training 사이의 'Mid-training' 단계를 도입하여 추론 능력을 극대화하는 동시에, 한국어 성능 저하 문제를 해결하기 위해 기존 학습 데이터를 재학습시키는 전략을 사용했습니다. 결과적으로 Kanana-2는 도구 호출(Tool Calling)과 복잡한 지시 이행 능력에서 비약적인 발전을 이루었으며, 특히 Thinking 모델은 고난도 수학 및 코딩 영역에서 글로벌 수준의 성능을 입증했습니다. ### 성능의 가교 역할을 하는 Mid-training * **도입 배경**: 일반적인 사전 학습(Pre-training)만으로는 복잡한 추론이나 도구 사용 능력을 갖추기 어렵기 때문에, 본격적인 미세 조정 전 단계로서 모델의 잠재력을 끌어올리는 중간 단계를 설계했습니다. * **데이터 구성**: 최신 고성능 모델에서 추출한 200B 규모의 고품질 영어 추론 데이터와 수학, 코드 데이터를 집중적으로 학습시켰습니다. * **치명적 망각(Catastrophic Forgetting) 방지**: 영어 추론 데이터 학습 시 한국어 성능이 하락하는 문제를 방지하고자, 사전 학습 데이터 중 한국어 데이터를 포함한 50B 토큰을 일정 비율로 섞어 학습(Replay 전략)함으로써 언어 균형을 유지했습니다. * **효과**: Mid-training을 거친 모델은 기본 모델 대비 수학(MATH) 및 코딩(HumanEval) 벤치마크에서 유의미한 향상을 보였으며, 이후 Instruct 학습 시 더 빠른 수렴 속도와 높은 최종 성능을 나타냈습니다. ### 에이전트 능력을 강화한 Instruct 모델 * **SFT 전략의 최적화**: 기존 Kanana-1.5 데이터셋에 Nemotron 등 오픈소스 고품질 데이터를 단순히 교체하기보다 추가로 통합(Supplementation)했을 때, 전반적인 성능과 지시 이행 능력의 균형이 가장 잘 유지됨을 확인했습니다. * **Agentic AI 역량**: 실질적인 도구 활용을 위해 단일·다중·병렬 도구 호출 능력을 강화했으며, 답변의 길이, 언어 설정, 특정 단어 제외 등 복잡한 제약 조건을 준수하는 지시 이행 능력을 고도화했습니다. * **Parallel RL 파이프라인**: 대화 스타일과 선호도를 학습하는 DPO(Direct Preference Optimization)와 객관적인 정답이 존재하는 추론/코딩 성능을 높이는 PPO(Proximal Policy Optimization)를 병렬로 적용하여 효율적인 학습 구조를 구축했습니다. * **신뢰성 개선**: RL 단계 이후 KTO(Kahneman-Tversky Optimization) 기반의 Calibration Tuning을 추가하여 모델 답변의 신뢰도를 높이고 환각 현상을 줄였습니다. ### 추론에 특화된 Thinking 모델 * **CoT 기반 학습**: 모델이 문제 해결 과정을 단계별로 사고하는 '사고의 사슬(Chain-of-Thought)'을 학습하도록 SFT 데이터를 구성했습니다. * **Rule-based RL**: 수학과 코딩처럼 정답이 명확한 도메인에 대해 규칙 기반 보상(Reward) 모델을 적용하여, 모델 스스로 더 나은 추론 경로를 탐색하고 검증하도록 유도했습니다. * **성능 도약**: Thinking 모델은 AIME25 벤치마크에서 기본 모델(9.21) 대비 약 5배 향상된 50.0점을 기록했으며, 실시간 코딩 테스트인 LiveCodeBench에서도 글로벌 수준의 경쟁력을 확보했습니다. 이번 Kanana-2 개발 과정은 대규모 추론 데이터 주입 시 발생하는 언어적 편향을 '사전 데이터 리플레이'로 해결하고, DPO와 PPO를 병렬로 활용하여 효율성을 극대화한 사례로 평가됩니다. 복잡한 추론과 도구 활용이 필요한 에이전트 서비스를 기획 중이라면, 단순 Instruct 모델보다 Mid-training을 통해 기초 체력을 다진 후 Thinking SFT가 적용된 모델을 활용하는 것이 더욱 안정적인 성능을 기대할 수 있는 방법입니다.

훈련 후 생성 추천 시스템: 장점 가중치 감독 세부 조정 | 넷플릭스 기술 블로그 | 넷플릭스 테크블로그 (새 탭에서 열림)

넷플릭스는 사용자 행동을 순차적으로 예측하는 생성형 추천 시스템(Generative Recommenders)의 성능을 한 단계 높이기 위해 사후 학습(Post-training) 기술인 '가중치 적용 지도 미세 조정(Advantage-Weighted Supervised Finetuning, 이하 A-SFT)'을 도입했습니다. 기존의 생성형 추천 모델은 단순히 과거의 시퀀스를 모방하는 데 그쳐 실제 사용자 만족도를 충분히 반영하지 못했으나, A-SFT는 노이즈가 많은 추천 환경의 보상 신호를 효과적으로 학습에 활용합니다. 이 방법론은 반사실적 데이터(Counterfactual feedback) 확보가 어려운 추천 시스템의 한계를 극복하고, 보상 모델의 불확실성 속에서도 모델을 사용자 선호도에 더 정교하게 정렬시키는 결론을 도출했습니다. **생성형 추천 시스템의 한계와 사후 학습의 필요성** * 생성형 추천 모델(GR)은 트랜스포머 아키텍처를 활용해 사용자의 다음 활동을 예측하는 순차적 변환 태스크로 추천 문제를 정의합니다. * 단순히 관찰된 과거 행동을 모방하는 방식은 트렌드나 외부 요인에 의한 상호작용을 구분하지 못하며, 사용자가 실제로 만족하지 않은 콘텐츠를 반복 추천할 위험이 있습니다. * 따라서 시청 시간, 클릭률, 평점 등 명시적·암묵적 피드백을 활용해 모델을 사용자 선호에 맞게 조정하는 사후 학습 과정이 필수적입니다. **추천 시스템 사후 학습의 주요 난제** * **반사실적 피드백의 부재:** LLM과 달리 추천 시스템은 사용자가 실제로 경험한 온-폴리시(On-policy) 데이터만 존재하며, 수주에서 수년에 걸친 사용자 시퀀스에 대해 가상의 시나리오에 대한 피드백을 얻는 것은 불가능에 가깝습니다. * **보상 신호의 높은 노이즈:** 시청 시간이 길다고 해서 반드시 만족도가 높은 것은 아니며(시간 제약 등으로 중단 가능), 보상 모델 자체가 높은 불확실성과 분산을 가집니다. * **기존 기법의 적용 한계:** 반사실적 데이터를 요구하는 PPO(근사 정책 최적화)나 DPO(직접 선호도 최적화) 같은 최신 LLM 최적화 기법을 추천 도메인에 그대로 적용하기 어렵습니다. **A-SFT: 불확실한 보상을 활용하는 최적화 전략** * A-SFT는 지도 미세 조정(SFT)의 안정성과 강화 학습의 이점 함수(Advantage function)를 결합하여 보상 모델의 방향성 신호를 학습에 반영합니다. * 보상 모델이 높은 분산을 가질 때에도 보상 자체에 매몰되지 않고, 이점 함수를 통해 상대적으로 더 나은 행동에 가중치를 두어 학습함으로써 성능 저하를 방지합니다. * 이 방식은 보상 모델이 없을 때 사용하는 '행동 복제(Behavior Cloning)'와 완벽한 보상 모델을 전제로 하는 '온라인 강화 학습' 사이의 적정 지점을 찾아내어 모델 성능을 최적화합니다. **실무적 권장 사항** 추천 시스템의 사후 학습 전략을 선택할 때는 보상 모델의 품질과 일반화 능력을 먼저 고려해야 합니다. 보상 모델의 노이즈가 심할 경우 이를 과도하게 최적화하면 오히려 성능이 하락할 수 있으므로, A-SFT와 같이 보상의 방향성을 활용하면서도 학습의 안정성을 유지할 수 있는 가중치 기반의 접근법을 사용하는 것이 권장됩니다. 이는 특히 실제 서비스 데이터와 같이 피드백이 불완전한 환경에서 생성형 모델을 사용자 가치에 정렬시키는 데 매우 효과적인 도구가 될 수 있습니다.

명확화 학습: Action-Based (새 탭에서 열림)

구글 리서치와 딥마인드 연구진이 발표한 '행동 기반 대조적 자기 훈련(Action-Based Contrastive Self-Training, 이하 ACT)'은 LLM이 다회차 대화에서 모호함을 해소하는 능력을 획기적으로 개선하는 방법론입니다. 기존 모델들이 사용자의 의도를 성급하게 추측하거나 답변을 회피하는 경향이 있는 반면, ACT는 대화의 맥락에 따라 질문을 던져 의도를 명확히 할지 아니면 바로 답변할지를 스스로 판단하도록 훈련합니다. 이 알고리즘은 데이터 효율적인 방식으로 멀티턴 대화의 궤적(trajectory)을 최적화하여 복잡한 정보 탐색 작업에서 기존의 지도 학습 기반 미세 조정(SFT)이나 직접 선호도 최적화(DPO)보다 뛰어난 성능을 보였습니다. ### 대화형 추론을 위한 암시적 행동 계획 * 전통적인 대화형 에이전트는 대화 관리(질문할지 답변할지 결정)와 생성 모듈이 분리되어 있었으나, ACT는 이를 생성 과정의 일부인 '암시적 행동 계획'으로 통합했습니다. * LLM이 별도의 계획 단계 없이 응답 생성 과정 내에서 적절한 대화 행동(의도 확인 질문 vs 답변 시도)을 수행하도록 직접 최적화합니다. * 이는 대화의 흐름에 따라 모델이 스스로 판단을 내리는 능력을 강화하여 더욱 자연스럽고 지능적인 상호작용을 가능하게 합니다. ### 1단계: 행동 기반 대조 데이터 생성 * 학습을 위해 먼저 각 대화 턴에서 '승리한 행동(예: 질문을 통한 확인)'과 '패배한 행동(예: 성급한 답변)'으로 구성된 선호도 데이터 쌍을 구축합니다. * 기존 대화 데이터셋의 정답 턴을 승리 응답으로 삼고, 조건부 생성 모델을 활용해 이와 반대되는 성격의 부정적 응답(Rejected response)을 합성합니다. * 이 과정을 통해 모델은 특정 상황에서 어떤 대화 행동이 더 적절한지에 대한 대조적인 시각을 학습하게 됩니다. ### 2단계: 온폴리시(On-policy) 대조적 자기 훈련 * 고정된 데이터셋으로 학습하는 오프라인 방식 대신, 학습 중인 모델이 직접 응답을 샘플링하는 온폴리시 방식을 채택했습니다. * 모델이 생성한 응답이 올바른 대화 행동(예: 질문하기)을 수행했는지 확인한 뒤, 전체 대화 궤적을 시뮬레이션하여 최종 결과가 사용자의 의도와 부합하는지 평가합니다. * 시뮬레이션 결과가 성공적일 경우 해당 궤적을 학습 데이터에 반영함으로써, 단일 턴의 응답 품질뿐만 아니라 멀티턴 대화 전체의 성공 확률을 높이도록 모델을 최적화합니다. ### AmbigSQL 도입 및 성능 검증 * 연구진은 복잡한 SQL 코드 생성 시 발생하는 모호한 요청을 해소하기 위한 새로운 과제인 'AmbigSQL'을 도입하여 데이터 분석 에이전트의 능력을 시험했습니다. * 표 기반 질의응답(Tabular-grounded QA) 및 기계 독해(MRC) 등 실제 환경과 유사한 다양한 과제에서 ACT의 효용성을 입증했습니다. * 실험 결과, ACT는 대화 내의 모호성을 인지하고 추론하는 능력이 표준적인 튜닝 방식들보다 월등히 높음을 보여주었습니다. 사용자의 모호한 질문에 대해 단순히 답변을 생성하는 것에 그치지 않고, 적절한 시점에 확인 질문을 던지는 에이전트를 구축하고자 한다면 ACT와 같은 다회차 궤적 시뮬레이션 기반의 정렬(Alignment) 방식이 매우 효과적인 대안이 될 수 있습니다. 특히 데이터 분석이나 기술 지원처럼 정확한 의도 파악이 필수적인 도메인에서 모델의 신뢰도를 높이는 데 기여할 것으로 기대됩니다.