data-collection

2 개의 포스트

Four ways Google Research scientists have been using Empirical Research Assistance (새 탭에서 열림)

Google Research의 '경험적 연구 지원(Empirical Research Assistance, ERA)' 시스템은 과학자들이 전문가 수준의 소프트웨어를 생성하여 복잡한 실제 과학 문제를 해결할 수 있도록 돕는 혁신적인 AI 도구입니다. 이 기술은 단순한 개념 증명을 넘어 역학, 우주론, 기후 모니터링 등 다양한 분야에서 기존 모델을 능가하거나 풀리지 않았던 난제를 해결하며 과학적 발견의 속도를 비약적으로 높이고 있습니다. ERA는 계산 모델링의 접근성을 민주화하고, 데이터에서 더 깊은 통찰력을 추출하며, 해석 가능하고 물리적으로 정확한 솔루션을 제공하는 데 기여하고 있습니다. ### 공중보건: 독감 및 코로나19 입원 예측 * ERA를 활용해 독감, 코로나19, 호흡기 세포융합 바이러스(RSV)로 인한 미국 내 입원 환자 수를 예측하고 질병통제예방센터(CDC)에 매주 실시간 예측치를 제출하고 있습니다. * CDC의 공개 리더보드 분석 결과, Google의 예측 모델은 기존의 주요 연구 기관 및 CDC 자체 도구와 대등하거나 이를 상회하는 수준의 정확도를 기록하며 최상위권을 유지하고 있습니다. * 이는 고가의 장비나 복잡한 역학 모델링 인프라 없이도 신종 전염병을 효과적으로 추적하고 공중보건 대응력을 높일 수 있는 가능성을 보여줍니다. ### 우주론: 우주 끈과 중력 에너지 복사 문제 해결 * 초기 우주에서 형성된 것으로 추측되는 '우주 끈(Cosmic strings)'의 중력 에너지 복사 스펙트럼 산출 과정에서 발생하는 수학적 특이점 문제를 해결했습니다. * 기존에는 GPT-5를 이용해 특정 조건(90도 각도)에서의 부분적인 해만 구했으나, Google은 ERA와 'Gemini Deep Think'를 결합해 보다 복잡한 일반해와 점근 한계(asymptotic limit)에 대한 간결한 공식을 도출했습니다. * 고급 언어 모델(LLM)과 ERA의 결합이 우주론의 최전선에서 정밀하고 새로운 수학적 해법을 찾아내는 강력한 도구가 될 수 있음을 입증했습니다. ### 기후 및 지속 가능성: 기상 위성을 활용한 이산화탄소 모니터링 * 이산화탄소(CO2) 관측 전용 위성이 아닌, 10분마다 지표면을 스캔하는 일반 기상 위성(GOES East) 데이터를 활용해 고해상도 CO2 지도를 생성하는 기술을 개발했습니다. * ERA를 통해 물리 법칙이 가이드된 신경망(physics-guided neural network)을 설계했으며, 16개 파장 대역 데이터와 기상 데이터를 결합해 기존 전용 위성보다 훨씬 높은 시공간 해상도로 CO2 변화를 추적합니다. * 지상 관측 데이터와의 비교를 통해 모델의 정확성을 검증했으며, 이는 자원 집약적인 위성 미션 대신 기존 관측 자산의 가치를 극대화할 수 있는 경제적인 대안을 제시합니다. ERA는 과학자들이 방대한 데이터를 해석 가능한 지식으로 전환하고, 복잡한 물리적 공식을 코드로 구현하는 과정에서 발생하는 병목 현상을 제거해 줍니다. 이러한 AI 기반 연구 지원은 단순히 효율성을 높이는 것에 그치지 않고, 그동안 데이터 부족이나 수학적 난제로 인해 멈춰있던 영역에서 새로운 발견을 이끌어내는 핵심 동력이 될 것입니다.

WAXAL: 아프 (새 탭에서 열림)

구글 리서치가 공개한 WAXAL(West African Languages)은 사하라 이남 아프리카 27개 언어를 지원하는 대규모 오픈소스 음성 데이터셋으로, 기술 소외 지역의 디지털 격차를 해소하기 위해 구축되었습니다. 약 1,846시간의 음성 인식(ASR) 데이터와 565시간의 고음질 음성 합성(TTS) 데이터를 포함하며, 누구나 자유롭게 활용할 수 있는 CC-BY-4.0 라이선스로 제공됩니다. 이 프로젝트는 아프리카 현지 학계 및 커뮤니티와의 긴밀한 협업을 통해 대화형 AI 시스템 구축에 필요한 언어적 다양성과 실제 구어체의 특성을 정밀하게 반영했습니다. **WAXAL 데이터셋의 기술적 구성** * **WAXAL-ASR (자연스러운 구어 이해):** 약 1,846시간 분량의 전사된 오디오로 구성되며, 대본을 읽는 방식이 아닌 50개 이상의 시각적 자극(이미지)을 보고 자신의 언어로 설명하는 방식을 채택했습니다. 이를 통해 성조의 미묘한 차이나 코드 스위칭(여러 언어를 섞어 쓰는 현상)과 같은 실제 대화의 특징을 효과적으로 포착했습니다. * **WAXAL-TTS (고충실도 음성 생성):** 자연스러운 합성 음성 제작을 위해 565시간 이상의 고품질 오디오를 포함합니다. 음성학적 균형을 맞춘 대본을 바탕으로 녹음되었으며, 전문적인 음향 품질을 확보하기 위해 현지 참여자들이 직접 맞춤형 스튜디오 박스를 제작하여 녹음을 진행했습니다. * **풀듀플렉스(Full-duplex) 시스템 지향:** 비정형화된 ASR 데이터와 정제된 TTS 데이터를 동시에 제공함으로써, 실제 환경에서 자연스럽게 주고받는 양방향 대화형 AI 모델링이 가능하도록 설계되었습니다. **지역 생태계 중심의 협력 모델** * **현지 주도 데이터 수집:** 마케레레 대학교, 가나 대학교 등 아프리카 현지 교육 기관 및 커뮤니티가 수집 과정을 주도하고 구글의 데이터 수집 전문가들이 기술적 가이드를 제공하는 방식으로 진행되었습니다. * **데이터 소유권 및 개방성:** 수집된 데이터의 소유권은 파트너 기관이 유지하되, 전체 커뮤니티의 발전을 위해 데이터를 공개한다는 원칙 아래 협력 관계를 구축했습니다. * **인프라 구축 지원:** 프로젝트 자금을 통해 현지에 녹음 스튜디오 인프라를 구축하고, 기술 교육을 병행하여 향후 지속 가능한 데이터 수집 역량을 강화했습니다. **연구 성과 및 실제 활용 사례** * **포용적 기술 연구:** 가나의 아칸(Akan)어 사용자 중 뇌성마비나 말을 더듬는 장애를 가진 이들을 위한 최초의 오픈소스 데이터셋 구축에 기여하였으며, 텍스트보다 이미지 프롬프트 방식이 취약 계층의 음성 수집에 더 효과적임을 입증했습니다. * **모델 성능 벤치마킹:** Whisper, XLS-R, MMS, W2v-BERT 등 최신 음성 모델 4종을 13개 아프리카 언어에 대해 테스트하여, 데이터 증량에 따른 성능 확장성이 언어적 복잡도와 도메인 일치도에 따라 어떻게 달라지는지 분석했습니다. * **언어적 특성 반영 평가:** 111개 아프리카 언어에 대한 74개 데이터셋을 체계적으로 검토하고, 형태학적으로 풍부하고 성조가 있는 언어의 특성을 정확히 평가하기 위해 CER(Character Error Rate)과 같은 지표 도입의 필요성을 제시했습니다. WAXAL은 단순한 데이터 제공을 넘어 아프리카 인공지능 생태계가 자립할 수 있는 토대를 마련했다는 점에서 큰 의미가 있습니다. 개발자와 연구자들은 이 공개된 자원을 활용하여 아프리카 고유의 언어적 특성이 반영된 혁신적인 음성 서비스를 개발하고, 디지털 환경에서 소외되었던 수억 명의 사용자들에게 기술의 혜택을 전달할 수 있을 것으로 기대됩니다.