streaming-architecture

1 개의 포스트

실시간 음성 대 (새 탭에서 열림)

Google DeepMind는 원본 화자의 목소리를 유지하면서 단 2초의 지연 시간으로 실시간 통역이 가능한 혁신적인 엔드투엔드 음성 대 음성 번역(S2ST) 모델을 공개했습니다. 기존의 계층적 방식이 가졌던 높은 지연 시간과 개성 없는 음성 출력 문제를 해결하기 위해, 연구진은 스트리밍 아키텍처와 시계열 동기화 데이터 파이프라인을 결합했습니다. 이 기술은 언어 장벽을 넘어 원어민의 음색으로 즉각적인 소통을 가능하게 함으로써 더 자연스러운 원격 대화 환경을 제공합니다. ### 기존 계층적(Cascaded) S2ST의 한계 * 일반적인 실시간 번역 시스템은 음성 인식(ASR), 기계 번역(AST), 음성 합성(TTS)의 세 가지 개별 단계를 거치는 계층적 구조를 사용합니다. * 이러한 방식은 각 단계에서 발생하는 지연이 누적되어 결과적으로 4~5초 이상의 지연 시간이 발생하며, 이는 대화의 흐름을 끊고 턴제 대화를 강요하게 됩니다. * 또한 각 단계별로 오류가 누적될 위험이 크고, 일반적인 TTS를 사용하기 때문에 원본 화자의 목소리 특성을 살리지 못한다는 단점이 있습니다. ### 확장 가능한 시계열 동기화 데이터 파이프라인 * 원본 음성과 번역된 음성 간의 정확한 시점 일치를 위해 대규모 시계열 동기화 데이터 세트를 생성하는 새로운 파이프라인을 구축했습니다. * 강제 정렬(Forced Alignment) 알고리즘을 사용하여 오디오와 텍스트를 매핑하고, 기계 번역된 텍스트가 원본 오디오의 타이밍에 맞게 배치되도록 정밀하게 설계되었습니다. * 커스텀 TTS 엔진을 통해 원본 화자의 목소리 특성을 유지하면서 자연스러운 대상 언어 음성을 생성하며, 지연 시간 요건을 충족하지 못하는 데이터는 엄격한 필터링 과정을 통해 제외됩니다. ### 엔드투엔드 스트리밍 아키텍처 * 이 모델은 근본적인 트랜스포머 블록을 기반으로 하며, 실시간 처리에 최적화된 스트리밍 인코더와 디코더로 구성됩니다. * 스트리밍 인코더는 이전 10초간의 입력을 바탕으로 소스 오디오 데이터를 요약하며, 스트리밍 디코더는 압축된 상태 정보를 활용해 자기회귀(Autoregressive) 방식으로 번역된 음성을 예측합니다. * 오디오는 SpectroStream 코덱 기술을 통해 RVQ(Residual Vector Quantization) 토큰이라는 2차원 계층 구조로 표현되며, 이는 모델이 실시간 스트림 환경에서 음성 품질과 출력 시점을 효과적으로 결정할 수 있게 합니다. 이번 연구는 실시간 번역의 고질적인 문제였던 '지연 시간'과 '화자의 정체성 손실'을 동시에 해결했다는 점에서 큰 의미가 있습니다. 2초라는 짧은 지연 시간과 화자 고유의 음색 보존은 단순한 정보 전달을 넘어 정서적 연결이 필요한 비즈니스 미팅이나 개인적인 통화 환경에서 소통의 질을 획기적으로 높여줄 것으로 기대됩니다.