speech-recognition

2 개의 포스트

더욱 똑똑하게 답하며, 더욱 풍부한 감정표현을 향한 Kanana-o의 진화 과정 - tech.kakao.com (새 탭에서 열림)

카카오의 멀티모달 언어모델 Kanana-o는 텍스트, 이미지, 음성을 동시에 이해하고 처리하여 사람처럼 자연스러운 상호작용을 지향하는 통합 모델입니다. 연구팀은 모델이 입력 모달리티에 관계없이 일관된 지능을 발휘하도록 고품질의 복합 지시 이행 데이터를 구축하고, 음성 토큰화 기술을 통해 풍부한 감정 표현력을 확보했습니다. 그 결과 Kanana-o는 한국어 맥락을 깊이 있게 이해하며 복잡한 명령을 수행하는 동시에, 사람과 유사한 섬세한 음성 반응을 제공하는 독보적인 성능을 입증했습니다. **멀티모달 지시 이행 능력의 고도화** * 단순한 질의응답을 넘어 요약, 문체 변환, 형식 제한 등 복합적인 제약 조건이 포함된 오디오 기반 지시 이행 데이터셋을 직접 설계했습니다. * 텍스트 입력 시에는 뛰어난 성능을 보이지만 오디오 입력 시 성능이 저하되는 기존 모델들의 한계를 극복하기 위해, 모달리티에 무관하게 안정적인 지능을 유지하는 일반화(Domain-generalization) 작업에 집중했습니다. * 한국어 음성 지시 이행 벤치마크인 Speech-KoMT-Bench에서 글로벌 경쟁 모델 대비 압도적인 성능을 기록하며 한국어 환경에서의 우수성을 증명했습니다. **이미지-오디오-텍스트 통합 데이터 구축** * 이미지를 보면서 음성으로 질문하는 등 서로 다른 모달리티가 결합된 시나리오에서도 정교하게 동작하도록 이미지-오디오-텍스트 통합 데이터셋을 구축했습니다. * 시각 정보와 청각 정보를 동시에 정렬(Alignment)함으로써, 모델이 복합적인 입력 환경에서도 사용자의 의도와 맥락을 정확히 파악할 수 있도록 학습시켰습니다. **오디오 토큰화를 통한 자연스러운 감정 표현** * 기존의 단조로운 음성 합성 방식을 넘어, 음성 데이터를 이산적인 토큰(Discrete Audio Tokens)으로 변환하여 언어모델이 텍스트와 함께 예측하도록 설계했습니다. * 이를 통해 단순한 텍스트 전달이 아닌, 발화자의 감정선, 호흡, 웃음소리, 억양 등 미묘한 운율(Prosody) 정보를 풍부하게 담아낼 수 있게 되었습니다. * 사용자의 감정을 실시간으로 인식하고 이에 어울리는 목소리 톤으로 응답함으로써, 기계적인 비서가 아닌 실제 사람과 대화하는 듯한 정서적 유대감을 제공합니다. Kanana-o는 단순히 기술적 지표를 높이는 것에 그치지 않고, 실제 서비스 환경에서 사용자가 체감할 수 있는 '이해력'과 '표현력'의 조화를 이루어냈습니다. 한국어에 특화된 강력한 지능과 섬세한 감성 표현 기술의 결합은 향후 더욱 몰입감 있고 실질적인 도움을 주는 AI 경험을 제공할 것으로 기대됩니다.

실시간 음성 대 (새 탭에서 열림)

Google DeepMind는 원본 화자의 목소리를 유지하면서 단 2초의 지연 시간으로 실시간 통역이 가능한 혁신적인 엔드투엔드 음성 대 음성 번역(S2ST) 모델을 공개했습니다. 기존의 계층적 방식이 가졌던 높은 지연 시간과 개성 없는 음성 출력 문제를 해결하기 위해, 연구진은 스트리밍 아키텍처와 시계열 동기화 데이터 파이프라인을 결합했습니다. 이 기술은 언어 장벽을 넘어 원어민의 음색으로 즉각적인 소통을 가능하게 함으로써 더 자연스러운 원격 대화 환경을 제공합니다. ### 기존 계층적(Cascaded) S2ST의 한계 * 일반적인 실시간 번역 시스템은 음성 인식(ASR), 기계 번역(AST), 음성 합성(TTS)의 세 가지 개별 단계를 거치는 계층적 구조를 사용합니다. * 이러한 방식은 각 단계에서 발생하는 지연이 누적되어 결과적으로 4~5초 이상의 지연 시간이 발생하며, 이는 대화의 흐름을 끊고 턴제 대화를 강요하게 됩니다. * 또한 각 단계별로 오류가 누적될 위험이 크고, 일반적인 TTS를 사용하기 때문에 원본 화자의 목소리 특성을 살리지 못한다는 단점이 있습니다. ### 확장 가능한 시계열 동기화 데이터 파이프라인 * 원본 음성과 번역된 음성 간의 정확한 시점 일치를 위해 대규모 시계열 동기화 데이터 세트를 생성하는 새로운 파이프라인을 구축했습니다. * 강제 정렬(Forced Alignment) 알고리즘을 사용하여 오디오와 텍스트를 매핑하고, 기계 번역된 텍스트가 원본 오디오의 타이밍에 맞게 배치되도록 정밀하게 설계되었습니다. * 커스텀 TTS 엔진을 통해 원본 화자의 목소리 특성을 유지하면서 자연스러운 대상 언어 음성을 생성하며, 지연 시간 요건을 충족하지 못하는 데이터는 엄격한 필터링 과정을 통해 제외됩니다. ### 엔드투엔드 스트리밍 아키텍처 * 이 모델은 근본적인 트랜스포머 블록을 기반으로 하며, 실시간 처리에 최적화된 스트리밍 인코더와 디코더로 구성됩니다. * 스트리밍 인코더는 이전 10초간의 입력을 바탕으로 소스 오디오 데이터를 요약하며, 스트리밍 디코더는 압축된 상태 정보를 활용해 자기회귀(Autoregressive) 방식으로 번역된 음성을 예측합니다. * 오디오는 SpectroStream 코덱 기술을 통해 RVQ(Residual Vector Quantization) 토큰이라는 2차원 계층 구조로 표현되며, 이는 모델이 실시간 스트림 환경에서 음성 품질과 출력 시점을 효과적으로 결정할 수 있게 합니다. 이번 연구는 실시간 번역의 고질적인 문제였던 '지연 시간'과 '화자의 정체성 손실'을 동시에 해결했다는 점에서 큰 의미가 있습니다. 2초라는 짧은 지연 시간과 화자 고유의 음색 보존은 단순한 정보 전달을 넘어 정서적 연결이 필요한 비즈니스 미팅이나 개인적인 통화 환경에서 소통의 질을 획기적으로 높여줄 것으로 기대됩니다.