음원 정위 기술로 그룹 대 (새 탭에서 열림)

구글 리서치와 딥마인드가 발표한 '스피치컴퍼스(SpeechCompass)'는 다중 마이크를 활용한 음원 위치 추적 기술을 통해 모바일 자막 서비스의 가독성과 접근성을 혁신적으로 개선합니다. 기존의 실시간 자막 앱들이 여러 명의 발화 내용을 구분 없이 나열하던 한계를 극복하기 위해, 이 시스템은 소리가 들려오는 방향을 실시간으로 계산하여 발화자별로 색상과 화살표 지표를 제공합니다. 이를 통해 사용자는 복잡한 설정 없이도 그룹 대화에서 '누가, 어느 방향에서' 말하고 있는지를 직관적으로 파악할 수 있습니다.

기존 모바일 자막 기술의 한계와 해결책

  • 인지 부하 문제: 기존의 실시간 자막(Live Transcribe) 서비스는 모든 대화 내용을 하나의 텍스트 흐름으로 합쳐서 보여주기 때문에, 여러 명의 대화자가 섞여 있을 때 누가 어떤 말을 했는지 구분하기 어렵고 사용자의 인지적 부담이 큽니다.
  • 기존 방식의 제약: 시각 정보를 활용한 발화자 분리는 카메라 시야 확보가 필요하고, 음성 특징점(Voiceprint) 기반 방식은 각 화자의 목소리를 미리 등록해야 하는 번거로움과 프라이버시 문제가 존재합니다.
  • 위치 기반 접근: SpeechCompass는 대화자들이 물리적으로 서로 다른 위치에 있다는 점에 착안하여, 소리의 방향 정보를 활용해 발화자를 분리(Diarization)하고 시각적 가이드를 제공합니다.

다중 마이크를 이용한 실시간 음원 위치 추적

  • TDOA 알고리즘: 각 마이크에 소리가 도달하는 시간 차이(Time-Difference of Arrival)를 이용해 소리의 도달 각도를 계산합니다.
  • GCC-PHAT 적용: 위상 변환을 이용한 일반화된 상호 상관(Generalized Cross Correlation with Phase Transform) 기법을 사용하여 소음 환경에서의 내성을 높이고 연산 속도를 최적화했습니다.
  • 정밀도 향상: 커널 밀도 추정(Kernel Density Estimation)과 같은 통계적 기법을 결합하여 위치 추적의 정밀도를 높였으며, 4개의 마이크를 탑재한 전용 케이스는 360도 전 방향 감지를 지원합니다. 일반 스마트폰의 마이크 2개로도 소프트웨어 구현을 통해 180도 범위 내에서 작동이 가능합니다.

하드웨어 및 소프트웨어 구현의 효율성

  • 저사양 최적화: 별도의 거대 머신러닝 모델이나 가중치가 필요 없는 알고리즘 기반 방식이므로, 저전력 마이크로컨트롤러와 제한된 메모리 환경에서도 원활하게 작동합니다.
  • 낮은 지연 시간과 프라이버시: 음성의 고유 특성을 추출할 필요 없이 소리의 물리적 성질만 활용하므로 실시간 처리가 가능하며, 개인 식별 정보나 비디오 데이터를 요구하지 않아 사용자 프라이버시를 강력하게 보호합니다.
  • 범용성: 특정 언어에 의존하지 않는 기술이므로 전 세계 모든 언어에 즉시 적용 가능하며, 대화 장소를 옮기거나 휴대폰 위치를 바꿔도 즉각적으로 환경에 재적응합니다.

사용자 인터페이스와 실용성

  • 시각적 분리: 안드로이드 앱 인터페이스에서 각 발화자는 고유의 색상으로 구분되며, 대화창 옆에 표시되는 화살표 아이콘을 통해 발화자의 방향을 실시간으로 알려줍니다.
  • 접근성 향상: 청각 장애인이나 난청 사용자가 그룹 대화의 흐름을 놓치지 않도록 돕고, 회의록 작성이나 다국어 번역 시에도 발화 주체를 명확히 하는 데 유용합니다.

SpeechCompass는 복잡한 하드웨어나 클라우드 연산 없이도 모바일 기기 자체의 마이크 배열만으로 그룹 대화의 접근성을 획기적으로 높일 수 있음을 보여줍니다. 이 기술은 향후 다양한 모바일 접근성 도구에 통합되어, 청각 장애인뿐만 아니라 복잡한 회의 환경에서 기록이 필요한 일반 사용자들에게도 실질적인 도움을 줄 것으로 기대됩니다.