asr

1 개의 포스트

WAXAL: 아프 (새 탭에서 열림)

구글 리서치가 공개한 WAXAL(West African Languages)은 사하라 이남 아프리카 27개 언어를 지원하는 대규모 오픈소스 음성 데이터셋으로, 기술 소외 지역의 디지털 격차를 해소하기 위해 구축되었습니다. 약 1,846시간의 음성 인식(ASR) 데이터와 565시간의 고음질 음성 합성(TTS) 데이터를 포함하며, 누구나 자유롭게 활용할 수 있는 CC-BY-4.0 라이선스로 제공됩니다. 이 프로젝트는 아프리카 현지 학계 및 커뮤니티와의 긴밀한 협업을 통해 대화형 AI 시스템 구축에 필요한 언어적 다양성과 실제 구어체의 특성을 정밀하게 반영했습니다. **WAXAL 데이터셋의 기술적 구성** * **WAXAL-ASR (자연스러운 구어 이해):** 약 1,846시간 분량의 전사된 오디오로 구성되며, 대본을 읽는 방식이 아닌 50개 이상의 시각적 자극(이미지)을 보고 자신의 언어로 설명하는 방식을 채택했습니다. 이를 통해 성조의 미묘한 차이나 코드 스위칭(여러 언어를 섞어 쓰는 현상)과 같은 실제 대화의 특징을 효과적으로 포착했습니다. * **WAXAL-TTS (고충실도 음성 생성):** 자연스러운 합성 음성 제작을 위해 565시간 이상의 고품질 오디오를 포함합니다. 음성학적 균형을 맞춘 대본을 바탕으로 녹음되었으며, 전문적인 음향 품질을 확보하기 위해 현지 참여자들이 직접 맞춤형 스튜디오 박스를 제작하여 녹음을 진행했습니다. * **풀듀플렉스(Full-duplex) 시스템 지향:** 비정형화된 ASR 데이터와 정제된 TTS 데이터를 동시에 제공함으로써, 실제 환경에서 자연스럽게 주고받는 양방향 대화형 AI 모델링이 가능하도록 설계되었습니다. **지역 생태계 중심의 협력 모델** * **현지 주도 데이터 수집:** 마케레레 대학교, 가나 대학교 등 아프리카 현지 교육 기관 및 커뮤니티가 수집 과정을 주도하고 구글의 데이터 수집 전문가들이 기술적 가이드를 제공하는 방식으로 진행되었습니다. * **데이터 소유권 및 개방성:** 수집된 데이터의 소유권은 파트너 기관이 유지하되, 전체 커뮤니티의 발전을 위해 데이터를 공개한다는 원칙 아래 협력 관계를 구축했습니다. * **인프라 구축 지원:** 프로젝트 자금을 통해 현지에 녹음 스튜디오 인프라를 구축하고, 기술 교육을 병행하여 향후 지속 가능한 데이터 수집 역량을 강화했습니다. **연구 성과 및 실제 활용 사례** * **포용적 기술 연구:** 가나의 아칸(Akan)어 사용자 중 뇌성마비나 말을 더듬는 장애를 가진 이들을 위한 최초의 오픈소스 데이터셋 구축에 기여하였으며, 텍스트보다 이미지 프롬프트 방식이 취약 계층의 음성 수집에 더 효과적임을 입증했습니다. * **모델 성능 벤치마킹:** Whisper, XLS-R, MMS, W2v-BERT 등 최신 음성 모델 4종을 13개 아프리카 언어에 대해 테스트하여, 데이터 증량에 따른 성능 확장성이 언어적 복잡도와 도메인 일치도에 따라 어떻게 달라지는지 분석했습니다. * **언어적 특성 반영 평가:** 111개 아프리카 언어에 대한 74개 데이터셋을 체계적으로 검토하고, 형태학적으로 풍부하고 성조가 있는 언어의 특성을 정확히 평가하기 위해 CER(Character Error Rate)과 같은 지표 도입의 필요성을 제시했습니다. WAXAL은 단순한 데이터 제공을 넘어 아프리카 인공지능 생태계가 자립할 수 있는 토대를 마련했다는 점에서 큰 의미가 있습니다. 개발자와 연구자들은 이 공개된 자원을 활용하여 아프리카 고유의 언어적 특성이 반영된 혁신적인 음성 서비스를 개발하고, 디지털 환경에서 소외되었던 수억 명의 사용자들에게 기술의 혜택을 전달할 수 있을 것으로 기대됩니다.