Google Research / machine-learning

36 개의 포스트

google

Improving breast cancer screening workflows with machine learning (새 탭에서 열림)

구글 리서치(Google Research)는 영국 NHS(국가 보건 서비스)와의 협력을 통해 유방암 검진 워크플로우에 인공지능(AI)을 통합하는 대규모 연구를 진행하였으며, 이를 통해 암 진단 정확도 향상과 의료진 업무 부담 경감 가능성을 확인했습니다. 연구 결과 AI 시스템은 기존의 이중 판독(Double-read) 시스템에서 인간 판독자를 보조하거나 대체할 수 있는 충분한 성능을 보였으며, 특히 침습성 암 및 간격암(Interval cancer) 발견에서 뛰어난 성과를 거두었습니다. 이는 전문 인력 부족 문제를 겪고 있는 의료 현장에 지속 가능한 검진 시스템을 구축할 수 있는 실무적 근거를 제시합니다. ### AI 시스템의 독립적 성능 및 간격암 탐지 능력 * **대규모 후향적 검증:** 12만 5천 명 이상의 여성을 대상으로 한 연구에서 AI 시스템은 기존 첫 번째 판독자(인간)보다 유의미하게 높은 민감도를 기록했습니다. * **암 발견율 향상:** 유방암 발견율이 여성 1,000명당 7.54건에서 9.33건으로 증가했으며, 특히 기존 방식에서 놓쳤던 간격암의 25%를 추가로 식별해 냈습니다. * **병변 국소화 정확도:** 단순히 상관관계에 의존하는 것이 아니라, 실제 이상 부위를 정확히 짚어내는 병변 수준의 분석(Lesion-level localization)을 통해 기술적 신뢰성을 확보했습니다. * **형평성 확인:** 연령, 인종, 유방 밀도, 사회경제적 지위 등 다양한 인구통계학적 변수 전반에서 성능 편향이 나타나지 않음을 확인했습니다. ### 기술적 실무 통합 및 배포 타당성 * **신속한 처리 속도:** 실제 임상 현장에서 AI 판독은 완료까지 중앙값 17.7분이 소요된 반면, 인간의 첫 번째 판독은 2일 이상 소요되어 검진 효율성을 극대화할 수 있음을 입증했습니다. * **데이터 분포 변화(Distribution Shift) 대응:** 과거 학습 데이터와 현대 임상 데이터 간의 차이를 식별함으로써, 안전한 AI 도입을 위해 현장 맞춤형 '운영 지점(Operating point)' 보정 절차가 필수적임을 확인했습니다. * **단계적 도입 전략:** 12개 검진 사이트에 비개입형(Non-interventional)으로 배포하여 기술적 통합 과정을 점검하고, 실제 워크플로우 내에서의 실현 가능성을 증명했습니다. ### 인간과 AI의 협업 모델 및 이중 판독 워크플로우 * **AI 기반 이중 판독:** 두 명의 인간이 판독하던 기존 방식 대신 '인간 1명 + AI 시스템' 조합을 제안하고, 의견 불일치 시 중재(Arbitration) 패널이 개입하는 구조를 평가했습니다. * **실제 인간-AI 상호작용 분석:** 22명의 판독자가 참여하여 수천 건의 사례를 중재하는 과정을 통해, AI의 출력이 인간의 최종 의사결정에 미치는 영향과 실제 운영 규칙 준수 여부를 연구했습니다. * **의료 인력 부족 문제 해결:** 2028년까지 예상되는 영상의학 전문의 부족 현상(약 40%)에 대비하여, AI가 판독 품질을 유지하면서도 의료진의 업무 과중을 해결할 핵심 도구가 될 수 있음을 보여주었습니다. 이 연구는 AI가 실제 임상 환경에서 효과적인 '제2 판독자' 역할을 수행할 수 있음을 강력하게 뒷받침합니다. 다만, 실무 도입 시에는 지역별 환자 군과 워크플로우 특성에 맞춘 정밀한 캘리브레이션과 단계적인 검증 과정을 거치는 것이 중요하며, 이를 통해 의료 시스템의 지속 가능성을 확보할 수 있을 것으로 권고됩니다.

google

Protecting cities with AI-driven flash flood forecasting (새 탭에서 열림)

구글 리서치는 뉴스 데이터를 기반으로 한 새로운 AI 학습 모델을 개발하여 전 세계 도시 지역의 돌발 홍수(flash flood)를 최대 24시간 전에 예측할 수 있는 기술을 공개했습니다. 기존의 하천 홍수 예측과 달리 관측 장비가 부족한 지역에서도 정확한 경보를 제공할 수 있어, 전 지구적인 기상 재해 대응 격차를 줄이는 데 결정적인 역할을 할 것으로 기대됩니다. 이번 확장은 전 세계 20억 명 이상을 보호하려는 구글 홍수 예측 이니셔티브의 중요한 진전입니다. **데이터 공백과 돌발 홍수 예측의 한계** * 돌발 홍수는 전 세계 홍수 관련 사망자의 약 85%를 차지하며, 집중 호우 후 6시간 이내에 발생하여 대응이 매우 어렵습니다. * 하천 홍수는 수위계를 통한 '지상 관측 데이터(ground truth)'가 존재하지만, 돌발 홍수는 관측 장비가 없는 곳에서 급격히 발생하여 학습용 데이터를 확보하기 어렵습니다. * 특히 개발도상국이 집중된 글로벌 사우스(Global South) 지역은 고가의 물리 센서나 고해상도 수문 지도가 부족해 기존 예측 시스템의 혜택을 받지 못하는 '경보 격차'가 존재해 왔습니다. **비정형 데이터를 활용한 'Groundsource' 방법론** * 구글은 과거 돌발 홍수 사건의 시점과 위치를 파악하기 위해 공개된 뉴스 기사를 분석하는 'Groundsource' AI 기술을 도입했습니다. * 대규모 언어 모델인 제미나이(Gemini)를 활용하여 비정형 뉴스 데이터에서 홍수 발생 정보를 정밀하게 추출하고, 이를 기반으로 과거 홍수 사건 데이터셋을 구축했습니다. * 이 데이터셋을 통해 물리적 센서가 없는 지역에서도 AI 모델이 홍수의 패턴을 학습하고 예측할 수 있는 기초를 마련했습니다. **글로벌 스케일링을 위한 모델 구조 및 입력 데이터** * 시계열 데이터 처리에 최적화된 **LSTM(Long Short-Term Memory)** 유닛 기반의 **순환 신경망(RNN)** 아키텍처를 사용합니다. * 기상 예측 데이터뿐만 아니라 도시화 밀도, 지형, 토양 흡수율과 같은 정적인 지리적·인류학적 속성을 모델에 통합했습니다. * 특정 지역의 고비용 센서 대신 NASA, NOAA의 위성 데이터와 구글 딥마인드의 AI 기상 예측 모델(GraphCast) 등 전 지구적으로 사용 가능한 데이터만을 활용하여 확장성을 확보했습니다. * 현재 20x20km 공간 해상도로 작동하며, 뉴스 데이터가 풍부하고 인구 밀도가 높은 도시 지역(100명/km² 이상)을 우선적으로 지원합니다. **성능 평가 및 지리적 평등성 실현** * 모델 평가 결과, 뉴스 기반 학습 모델은 장비가 부족한 남미나 동남아시아 지역에서도 선진국 수준의 예측 정확도(정밀도 및 재현율)를 기록했습니다. * 실제 홍수가 뉴스에 보도되지 않아 오탐으로 분류된 사례를 수동 검수하여 모델의 실질적인 신뢰도가 지표보다 더 높음을 확인했습니다. * 이번 기술 도입을 통해 선진국과 개발도상국 사이의 재난 정보 불균형을 해소하고, 전 세계 어디서나 돌발 홍수에 대비할 수 있는 기반이 마련되었습니다. **실용적 의의** 돌발 홍수 경보가 12시간만 앞서 제공되어도 피해를 60%까지 줄일 수 있다는 점을 고려할 때, 구글의 24시간 예측 시스템은 인명과 재산을 보호하는 강력한 도구가 될 것입니다. 사용자는 구글의 'Flood Hub'를 통해 이러한 실시간 예측 정보를 확인할 수 있으며, 이는 기후 변화에 따른 극한 기상 현상에 대한 커뮤니티의 복원력을 크게 향상시킬 것입니다.

google

WAXAL: A large-scale open resource for African language speech technology (새 탭에서 열림)

구글 리서치가 공개한 WAXAL(West African Languages)은 사하라 이남 아프리카 27개 언어를 지원하는 대규모 오픈소스 음성 데이터셋으로, 기술 소외 지역의 디지털 격차를 해소하기 위해 구축되었습니다. 약 1,846시간의 음성 인식(ASR) 데이터와 565시간의 고음질 음성 합성(TTS) 데이터를 포함하며, 누구나 자유롭게 활용할 수 있는 CC-BY-4.0 라이선스로 제공됩니다. 이 프로젝트는 아프리카 현지 학계 및 커뮤니티와의 긴밀한 협업을 통해 대화형 AI 시스템 구축에 필요한 언어적 다양성과 실제 구어체의 특성을 정밀하게 반영했습니다. **WAXAL 데이터셋의 기술적 구성** * **WAXAL-ASR (자연스러운 구어 이해):** 약 1,846시간 분량의 전사된 오디오로 구성되며, 대본을 읽는 방식이 아닌 50개 이상의 시각적 자극(이미지)을 보고 자신의 언어로 설명하는 방식을 채택했습니다. 이를 통해 성조의 미묘한 차이나 코드 스위칭(여러 언어를 섞어 쓰는 현상)과 같은 실제 대화의 특징을 효과적으로 포착했습니다. * **WAXAL-TTS (고충실도 음성 생성):** 자연스러운 합성 음성 제작을 위해 565시간 이상의 고품질 오디오를 포함합니다. 음성학적 균형을 맞춘 대본을 바탕으로 녹음되었으며, 전문적인 음향 품질을 확보하기 위해 현지 참여자들이 직접 맞춤형 스튜디오 박스를 제작하여 녹음을 진행했습니다. * **풀듀플렉스(Full-duplex) 시스템 지향:** 비정형화된 ASR 데이터와 정제된 TTS 데이터를 동시에 제공함으로써, 실제 환경에서 자연스럽게 주고받는 양방향 대화형 AI 모델링이 가능하도록 설계되었습니다. **지역 생태계 중심의 협력 모델** * **현지 주도 데이터 수집:** 마케레레 대학교, 가나 대학교 등 아프리카 현지 교육 기관 및 커뮤니티가 수집 과정을 주도하고 구글의 데이터 수집 전문가들이 기술적 가이드를 제공하는 방식으로 진행되었습니다. * **데이터 소유권 및 개방성:** 수집된 데이터의 소유권은 파트너 기관이 유지하되, 전체 커뮤니티의 발전을 위해 데이터를 공개한다는 원칙 아래 협력 관계를 구축했습니다. * **인프라 구축 지원:** 프로젝트 자금을 통해 현지에 녹음 스튜디오 인프라를 구축하고, 기술 교육을 병행하여 향후 지속 가능한 데이터 수집 역량을 강화했습니다. **연구 성과 및 실제 활용 사례** * **포용적 기술 연구:** 가나의 아칸(Akan)어 사용자 중 뇌성마비나 말을 더듬는 장애를 가진 이들을 위한 최초의 오픈소스 데이터셋 구축에 기여하였으며, 텍스트보다 이미지 프롬프트 방식이 취약 계층의 음성 수집에 더 효과적임을 입증했습니다. * **모델 성능 벤치마킹:** Whisper, XLS-R, MMS, W2v-BERT 등 최신 음성 모델 4종을 13개 아프리카 언어에 대해 테스트하여, 데이터 증량에 따른 성능 확장성이 언어적 복잡도와 도메인 일치도에 따라 어떻게 달라지는지 분석했습니다. * **언어적 특성 반영 평가:** 111개 아프리카 언어에 대한 74개 데이터셋을 체계적으로 검토하고, 형태학적으로 풍부하고 성조가 있는 언어의 특성을 정확히 평가하기 위해 CER(Character Error Rate)과 같은 지표 도입의 필요성을 제시했습니다. WAXAL은 단순한 데이터 제공을 넘어 아프리카 인공지능 생태계가 자립할 수 있는 토대를 마련했다는 점에서 큰 의미가 있습니다. 개발자와 연구자들은 이 공개된 자원을 활용하여 아프리카 고유의 언어적 특성이 반영된 혁신적인 음성 서비스를 개발하고, 디지털 환경에서 소외되었던 수억 명의 사용자들에게 기술의 혜택을 전달할 수 있을 것으로 기대됩니다.

google

How AI trained on birds is surfacing underwater mysteries (새 탭에서 열림)

구글 딥마인드의 바이오어쿠스틱 파운데이션 모델인 Perch 2.0은 주로 조류와 육상 동물의 소리로 학습되었음에도 불구하고, 수중 환경의 고래 음향 분류 작업에서 탁월한 성능을 보여주었습니다. 이 모델은 직접적인 수중 데이터를 학습하지 않고도 전이 학습(Transfer Learning)을 통해 다양한 해양 생물 종과 생태형을 정밀하게 식별할 수 있음을 입증했습니다. 이는 대규모 데이터로 학습된 범용 모델이 물리적 환경이 전혀 다른 영역에서도 강력한 일반화 능력을 발휘할 수 있음을 시사하며, 해양 생태계 연구의 효율성을 획기적으로 높일 수 있는 가능성을 제시합니다. **전이 학습을 활용한 효율적인 음향 분류** * **임베딩 생성**: Perch 2.0과 같은 사전 학습된 모델은 복잡한 오디오 데이터를 '임베딩(Embedding)'이라고 불리는 작은 특징 배열로 압축합니다. * **저비용 모델 구축**: 대규모 신경망 전체를 처음부터 학습시키는 대신, 추출된 임베딩을 입력값으로 사용하는 단순한 로지스틱 회귀(Logistic Regression) 분류기만 추가하여 새로운 소리를 학습할 수 있습니다. * **자원 절약**: 이 방식은 연구자가 고성능 컴퓨팅 자원을 대량으로 소모하지 않고도 몇 개의 라벨링된 샘플(Few-shot)만으로 특정 해양 생물에 최적화된 맞춤형 분류기를 신속하게 만들 수 있게 해줍니다. **다양한 해양 데이터셋을 통한 성능 검증** * **평가 데이터셋**: 혹등고래, 대왕고래 등 발린고래류를 포함한 'NOAA PIPAN', 산호초의 생물학적 소음이 담긴 'ReefSet', 그리고 범고래의 세부 생태형(Ecotype)을 구분하는 'DCLDE' 데이터셋을 사용하여 모델을 평가했습니다. * **비교 모델**: 기존의 수중 전용 모델인 SurfPerch를 비롯하여 Perch 1.0, 조류 전용 모델인 BirdNet, 그리고 AVES 등 타사의 바이오어쿠스틱 모델들과 성능을 대조했습니다. * **분류 정확도**: Perch 2.0은 거의 모든 테스트 데이터셋과 샘플 수(4~32개) 조건에서 1위 혹은 2위의 AUC_ROC 점수를 기록하며, 수중 오디오로 학습된 모델들에 뒤지지 않거나 오히려 앞서는 성능을 보였습니다. **조류 모델이 수중 소리를 잘 식별하는 이유** * **일반화 능력**: 대규모의 다양한 데이터셋으로 학습된 거대 파운데이션 모델은 특정 종의 소리에 국한되지 않고 소리의 본질적인 패턴을 파악하는 능력이 뛰어납니다. * **음향적 유사성**: 조류의 지저귐과 고래의 노랫소리는 주파수나 구조적 측면에서 공통적인 특징을 공유하는 경우가 많아, 육상 동물 데이터로 구축된 특징 추출 메커니즘이 수중 환경에도 유효하게 작용합니다. * **연구 확장성**: 구글은 연구자들이 이 기술을 쉽게 활용할 수 있도록 Google Colab 튜토리얼을 제공하며, 이를 통해 NOAA의 수동 음향 데이터 아카이브를 활용한 맞춤형 고래 분류기 구축을 지원합니다. 해양 생물학 연구자들은 Perch 2.0의 임베딩 기능을 활용함으로써 방대한 수중 녹음 데이터에서 미지의 소리를 분류하는 시간을 단축할 수 있습니다. 특히 새롭게 발견된 '바이오트왱(Biotwang)'과 같은 정체불명의 소리를 식별하거나, 특정 지역의 범고래 하위 집단을 구분하는 정밀한 연구에 이 모델을 적극적으로 활용해 볼 것을 권장합니다.

google

Introducing GIST: The Next Stage in Smart Sampling | Google Research (새 탭에서 열림)

Google Research가 발표한 GIST(Greedy Independent Set Thresholding) 알고리즘은 거대 데이터셋에서 데이터의 다양성과 효용성을 동시에 극대화하는 혁신적인 샘플링 기술입니다. 이 알고리즘은 수학적으로 증명 가능한 성능 보장을 제공하며, 이미지 분류와 같은 기계 학습 작업에서 기존의 최첨단 벤치마크 모델들을 능가하는 효율적인 데이터 부분 집합 선택을 가능하게 합니다. 이를 통해 모델 학습에 필요한 컴퓨팅 자원을 획기적으로 줄이면서도 모델의 정확도를 유지할 수 있는 최적의 데이터 구성이 가능해졌습니다. ### 데이터 다양성과 효용성의 충돌 데이터 샘플링 과정에서는 중복을 피하는 '다양성'과 정보의 가치를 높이는 '효용성'이라는 두 가지 상충하는 목표를 균형 있게 달성해야 합니다. * **다양성(Diversity):** 데이터 포인트 간의 최소 거리를 최대화(Max-min diversity)하여 중복을 제거하고 데이터의 전체적인 분포를 포괄하는 것을 목표로 합니다. * **효용성(Utility):** 단조 부차함수(Monotone submodular functions)를 기반으로, 선택된 데이터셋이 가진 고유 정보의 총합을 극대화하는 것입니다. * **복잡성:** 다양성만 추구하면 관련 없는 데이터가 섞일 수 있고, 효용성만 따지면 유사한 고가치 데이터가 밀집되는 문제가 발생하며, 이 둘을 동시에 최적화하는 것은 NP-난해(NP-hard) 문제로 알려져 있습니다. ### GIST의 작동 원리와 알고리즘 단계 GIST는 복잡한 최적화 문제를 해결하기 위해 거리 임계값(Threshold)을 설정하고 이를 기반으로 독립 집합(Independent Set)을 근사화하는 방식을 취합니다. * **거리 임계값 설정:** 특정 최소 거리를 기준으로 그보다 가까운 데이터 포인트들을 그래프로 연결합니다. 이 연결된 포인트들은 서로 너무 유사하여 동시에 선택될 수 없는 '갈등' 관계로 간주됩니다. * **최대 독립 집합 문제 해결:** 연결된 포인트(중복 데이터)를 피하면서 전체 효용성을 극대화하는 '최대 독립 집합' 문제를 해결합니다. 이는 전산학에서 매우 어려운 문제이므로 GIST는 이를 효율적으로 풀기 위한 근사 기법을 사용합니다. * **이중 기준 그리디(Bicriteria Greedy) 알고리즘:** 다양한 거리 임계값을 체계적으로 테스트하며, 각 단계에서 이미 선택된 데이터와 일정 거리를 유지하면서도 가장 가치가 높은 데이터를 선택하여 최적의 '스위트 스폿'을 찾아냅니다. ### 기술적 성과 및 이론적 보장 GIST는 이론적 성능 보장과 실제 적용 결과 모두에서 기존 방식들을 압도하는 성과를 보여주었습니다. * **수학적 보장:** GIST는 이론적 최적해의 최소 50% 이상의 가치를 보장하는 최초의 알고리즘입니다. 연구진은 최적값의 56% 이상을 찾는 것이 수학적으로 불가능함을 증명함으로써 GIST가 이론적 한계치에 근접했음을 입증했습니다. * **실전 벤치마크 결과:** 무작위 추출(Random), 모델 불확실성 기반 추출(Margin), 기하학적 커버리지 중심의 k-center 방식보다 높은 성능을 기록했습니다. * **범용성:** 이미지 분류 등 다양한 ML 애플리케이션에서 데이터 중복은 줄이고 유용한 정보량은 극대화하는 안전장치(Safety net) 역할을 수행합니다. 방대한 데이터를 다루는 LLM이나 고해상도 비전 모델의 학습 비용을 절감하고자 하는 연구자와 개발자에게 GIST는 매우 유용한 도구입니다. 특히 데이터의 중복성이 높거나 학습 자원이 제한된 환경에서 수학적으로 검증된 샘플링 전략을 통해 효율적인 모델 학습 파이프라인을 구축할 것을 권장합니다.

google

NeuralGCM harnesses AI to better simulate long-range global precipitation (새 탭에서 열림)

Google Research가 개발한 NeuralGCM은 물리 기반 모델링과 인공지능을 결합한 하이브리드 대기 모델로, NASA의 위성 관측 데이터를 직접 학습하여 전 지구 강수 시뮬레이션의 정확도를 획기적으로 높였습니다. 이 모델은 기존 물리 모델이나 재분석 데이터 기반 AI 모델이 해결하지 못했던 강수량의 일변화 및 극한 현상을 정밀하게 재현하며, 15일 이내의 중기 예보와 수십 년 단위의 기후 시뮬레이션 모두에서 뛰어난 성능을 입증했습니다. 이는 기상 예측의 복잡성을 해결하고 기후 변화에 대한 인류의 대응력을 높이는 중요한 기술적 진보로 평가받습니다. ## 미세 규모 기상 현상과 강수 예측의 한계 * 강수 현상은 모델의 해상도보다 훨씬 작은 미세한 규모에서 발생하는 구름의 물리적 변화에 의존하기 때문에 전 지구 모델에서 가장 구현하기 까다로운 요소 중 하나입니다. * 구름은 100미터 미만의 단위로 존재하며 빠르게 변화하지만, 기존 기상 모델은 수 킬로미터, 기후 모델은 수십 킬로미터 단위의 해상도를 가집니다. * 기존 방식은 이러한 작은 규모의 프로세스를 '모수화(Parameterization)'라는 근사치 계산에 의존했으나, 이는 극한 현상을 포착하거나 장기적인 정확도를 유지하는 데 한계가 있었습니다. ## 위성 관측 데이터를 활용한 하이브리드 학습 * NeuralGCM은 대규모 유체 역학을 처리하는 '미분 가능한 동역학 코어(Differential Dynamical Core)'와 미세 물리 현상을 학습하는 신경망을 결합한 구조를 가집니다. * 기존 AI 모델들이 물리 모델과 관측치를 결합한 '재분석 데이터'를 학습한 것과 달리, NeuralGCM은 2001년부터 2018년까지의 NASA 위성 강수 관측 데이터(IMERG)를 직접 학습했습니다. * 이를 통해 재분석 데이터가 가진 강수 극값 및 일주기(Diurnal cycle) 표현의 약점을 극복하고, 실제 관측에 더 근접한 물리적 매개변수를 스스로 학습할 수 있게 되었습니다. ## 중기 예보 및 장기 기후 시뮬레이션 성과 * **중기 예보(15일):** 280km 해상도에서 선도적인 수치 예보 모델인 유럽중기예보센터(ECMWF)의 모델보다 더 정확한 강수량 예측 성능을 보여주었습니다. * **극한 현상 재현:** 상위 0.1%에 해당하는 극심한 강수 이벤트를 기존 모델보다 훨씬 더 정밀하게 시뮬레이션하는 데 성공했습니다. * **기후 변동성:** 수십 년 단위의 기후 시뮬레이션에서도 평균 강수량과 열대 지방의 오후 강수 집중 현상과 같은 일별 기상 사이클을 정확하게 포착했습니다. NeuralGCM은 현재 오픈 소스 라이브러리로 제공되고 있어 기상 및 기후 연구자들이 자유롭게 활용할 수 있습니다. 특히 농업 생산성 최적화, 도시의 홍수 대비, 재난 관리와 같이 정밀한 강수 데이터가 필수적인 분야에서 기존 수치 예보 모델을 보완하거나 대체할 수 있는 강력한 도구가 될 것으로 기대됩니다.

google

Spotlight on innovation: Google-sponsored Data Science for Health Ideathon across Africa (새 탭에서 열림)

구글 리서치는 아프리카 전역의 데이터 과학 커뮤니티와 협력하여 현지의 시급한 의료 과제를 해결하기 위한 'Data Science for Health Ideathon'을 개최했습니다. 이 대회는 MedGemma, MedSigLIP 등 구글의 개방형 의료 AI 모델을 활용해 자궁경부암 검진, 모성 건강 지원 등 아프리카 보건 시스템에 실질적인 변화를 가져올 수 있는 솔루션을 개발하는 데 중점을 두었습니다. 최종 선정된 팀들은 구글의 기술 자원과 전문가 멘토링을 통해 아이디어를 구체적인 프로토타입으로 구현하며 지역 맞춤형 AI 혁신의 가능성을 증명했습니다. **협력적 의료 혁신과 기술적 기반** * 르완다 키갈리에서 열린 'Deep Learning Indaba' 컨퍼런스를 기점으로 아프리카 AI 및 의료 커뮤니티 간의 역량 강화를 목표로 시작되었습니다. * 참가자들에게는 MedGemma(의료 LLM), TxGemma(치료제 개발 모델), MedSigLIP(의료 영상 분석 모델) 등 구글의 최신 보건 AI 모델이 제공되었습니다. * 프로젝트 수행을 위해 Google Cloud Vertex AI 컴퓨팅 크레딧과 상세 기술 문서, 구글 DeepMind 연구진의 기술 멘토링이 단계별로 지원되었습니다. **자궁경부암 및 모성 건강을 위한 AI 솔루션** * **Dawa Health (1위):** WhatsApp으로 업로드된 질확대경 영상을 MedSigLIP 기반 분류기로 실시간 분석하여 암 징후를 식별합니다. 여기에 Gemini RAG(검색 증강 생성)를 결합해 세계보건기구(WHO)와 잠비아의 프로토콜에 따른 임상 가이드를 제공합니다. * **Solver (2위):** 자궁경부 세포진 검사 자동화를 위해 MedGemma-27B-IT 모델을 LoRA(Low-Rank Adaptation) 방식으로 파인튜닝했습니다. FastAPI 기반의 웹 앱을 통해 병리 의사에게 주석이 달린 이미지와 임상 권고안을 출력합니다. * **Mkunga (3위):** 모성 건강 상담을 위해 MedGemma와 Gemini를 활용한 AI 콜센터를 구축했습니다. Vertex AI의 TTS/STT(음성 합성 및 인식) 기술을 통해 스와힐리어로 저비용 원격 진료 서비스를 제공합니다. **열악한 통신 환경을 고려한 기술적 접근** * **HexAI (최우수 PoC):** 인터넷 연결이 제한된 환경에서도 작동할 수 있는 오프라인 우선(Offline-first) 모바일 앱 'DermaDetect'를 개발했습니다. * 온디바이스(On-device) 형태의 MedSigLIP 모델을 통해 커뮤니티 건강 요원들이 현장에서 피부 질환을 즉시 분류할 수 있도록 설계되었습니다. * 고도화된 분석이 필요한 경우에만 클라우드 기반의 MedGemma와 연결하는 하이브리드 구조를 채택하여 데이터 플라이휠을 구축했습니다. 이번 사례는 고성능 의료 AI 모델이 오픈소스로 제공될 때, 현지 개발자들이 지역적 특수성과 인프라 한계를 극복하며 얼마나 창의적인 솔루션을 구축할 수 있는지 잘 보여줍니다. 특히 인프라가 부족한 지역에서는 RAG를 통한 신뢰성 확보나 온디바이스 모델링을 통한 오프라인 지원 기술이 의료 격차를 해소하는 핵심적인 전략이 될 수 있음을 시사합니다.

google

From Waveforms to Wisdom: The New Benchmark for Auditory Intelligence (새 탭에서 열림)

Google Research는 음성 지능 모델의 성능을 정밀하게 측정하고 발전시키기 위한 통합 오픈소스 플랫폼인 MSEB(Massive Sound Embedding Benchmark)를 공개했습니다. 이 벤치마크는 검색, 분류, 재구성 등 8가지 핵심 능력을 표준화하여 파편화된 기존 사운드 AI 연구를 통합하고, 범용 사운드 임베딩이 도달해야 할 기술적 목표치를 제시합니다. 초기 실험 결과 현재의 기술력은 범용성 측면에서 개선의 여지가 크며, MSEB는 이를 극복하여 인간 수준의 청각 지능을 구현하기 위한 핵심 지표로 활용될 전망입니다. ### 다각적 평가를 위한 고품질 데이터 세트 구축 * **SVQ(Simple Voice Questions) 데이터**: 17개 언어와 26개 지역의 특성을 반영한 177,352개의 짧은 음성 질의 데이터로, 화자 속성과 시간 정렬 데이터 등 풍부한 메타데이터를 포함합니다. * **실제 소음 환경 반영**: 조용한 상태, 배경 대화, 교통 소음, 미디어 소음 등 네 가지 실제 음향 환경을 시뮬레이션하여 모델의 견고성을 테스트합니다. * **도메인 확장성**: Speech-MASSIVE(의도 분류), FSD50K(환경음 인식), BirdSet(생물 음향학) 등 공공 데이터를 통합하여 인간의 언어를 넘어 자연계의 소리까지 아우르는 범용성을 확보했습니다. ### 청각 지능의 8가지 핵심 능력 정의 * **정보 접근(검색, 추론, 재순위화)**: 음성 질의를 통해 지식 베이스에서 관련 문서를 찾거나(검색), 문서 내 정답을 도출(추론)하고, 모호한 음성 인식 후보군을 원본 의도에 맞게 재정렬(재순위화)하는 능력을 평가합니다. * **기초 인지(분류, 전사, 세분화)**: 소리의 범주와 화자 속성을 분류하고, 음성을 텍스트로 변환(전사)하며, 특정 용어가 나타나는 정확한 시점을 타임스탬프로 파악(세분화)하는 기본 성능을 측정합니다. * **조직 및 생성(클러스터링, 재구성)**: 사전 정의된 레이블 없이 유사한 속성의 음성을 그룹화(클러스터링)하고, 중간 표현체인 임베딩으로부터 원본 오디오 파형을 얼마나 정밀하게 복원(재구성)할 수 있는지 확인합니다. ### 범용 임베딩 성능 분석과 연구 방향 * **성능 여유(Headroom) 확인**: 현재의 사운드 임베딩 기술이 모든 도메인에서 완벽하지 않다는 점을 시사하며, 최신 모델들도 여전히 성능 향상의 여지가 큼을 객관적인 수치로 입증했습니다. * **표준화된 평가 구조**: 단일 모달 모델부터 복합적인 멀티모달 모델까지 동일한 기준에서 성능을 비교할 수 있는 유연하고 확장 가능한 프레임워크를 제공합니다. * **미래 확장성**: 향후 음악 데이터 세트 추가 및 이미지와 결합된 멀티모달 작업으로 영역을 확장하여 실제 환경에서 활용 가능한 지능형 에이전트 개발을 지원할 예정입니다. MSEB는 사운드 기반 AI 연구가 직면한 파편화 문제를 해결하고 차세대 청각 지능을 위한 명확한 이정표를 제시합니다. 연구자들은 이 오픈소스 벤치마크를 활용해 모델의 범용성을 검증하고, 특히 복잡한 소음 환경에서의 데이터 해석 능력을 높이는 데 집중함으로써 더 자연스럽고 지능적인 음성 인터페이스를 구축할 수 있습니다.

google

Reducing EV range anxiety: How a simple AI model predicts port availability (새 탭에서 열림)

구글 리서치는 전기차 운전자의 '주행거리 불안(range anxiety)'을 해소하기 위해 특정 시간 후의 충전 포트 가용성을 예측하는 경량화된 AI 모델을 개발했습니다. 이 모델은 복잡한 신경망 대신 단순한 선형 회귀(Linear Regression) 방식을 채택하여 짧은 지연 시간과 높은 효율성을 동시에 달성했습니다. 연구진은 직관적인 실세계 논리와 머신러닝을 결합함으로써, 충전소의 현재 상태를 단순히 유지하는 기존의 강력한 기준 모델보다 더 정확한 예측이 가능함을 입증했습니다. ## 단순하고 효율적인 선형 회귀 모델 설계 * **모델 선택의 이유**: 의사결정 나무(Decision Tree)나 심층 신경망 등 다양한 구조를 테스트했으나, 가장 성능이 우수하고 견고한 것은 단순 선형 회귀 모델이었습니다. 이는 배포 인프라와의 공동 설계를 통해 속도와 예측력을 모두 잡기 위함입니다. * **데이터 샘플링**: 캘리포니아와 독일 지역의 실시간 데이터를 활용해 훈련되었으며, 교통량이 많고 실사용 사례를 더 잘 반영하는 대형 충전소를 우선적으로 포함했습니다. * **경량 피처 활용**: 예측 속도를 극대화하기 위해 피처 세트를 최소화했으며, 사용자가 도달할 시점의 예상 가용 포트 수를 즉각적으로 계산합니다. ## 시간 기반 가중치를 통한 점유율 변화 예측 * **시간 피처(Hour Feature)**: 하루의 각 시간을 개별 피처(예: 오전 9시, 오후 5시 등)로 처리하여 시간대별 운전자의 행동 패턴을 반영합니다. * **가중치(Weights)의 의미**: 선형 회귀를 통해 학습된 가중치는 포트 점유율의 변화율을 나타냅니다. 양수 가중치는 해당 시간에 점유율이 증가함을, 음수 가중치는 점유율이 감소(포트가 비워짐)함을 의미합니다. * **예측 논리**: 모델은 단순히 현재 상태를 보여주는 것이 아니라, 현재 가용 포트 수에 시간별 가중치를 더해 미래 시점의 가용성을 산출합니다. 특히 출퇴근 시간처럼 변화가 급격한 시점에 유의미한 예측값을 제공합니다. ## 성능 검증 및 벤치마크 결과 * **강력한 베이스라인과의 비교**: '현재 상태 유지(Keep Current State)' 모델을 대조군으로 설정했습니다. 일반적으로 30분 이내에 상태가 변하는 포트는 10% 미만이기에 이를 능가하는 것은 매우 어려운 과제입니다. * **평가 지표**: 평균 제곱 오차(MSE)와 평균 절대 오차(MAE)를 사용하여 정확도를 측정했습니다. 특히 '최소 한 개의 포트가 비어있을 것인가'라는 실질적인 질문에 답하기 위해 이진 분류 성능도 평가했습니다. * **실전 성과**: 30분 및 60분 후를 예측하는 실험에서, 제안된 모델은 점유율 변동이 빈번한 결정적인 순간들을 정확히 포착하여 베이스라인보다 향상된 성능을 보여주었습니다. ## 실용적 결론 이 연구는 복잡한 AI 모델이 항상 최선은 아니라는 점을 시사합니다. 충전소 가용성 예측과 같이 실시간 응답이 중요하고 피처가 단순한 도메인에서는 선형 회귀 모델만으로도 충분히 강력한 성능을 낼 수 있습니다. 전기차 내비게이션 시스템에 이 모델을 통합하면 운전자는 경로상의 충전소에 도착했을 때 실제 충전 가능 여부를 더 높은 확률로 신뢰할 수 있게 되어, 전반적인 주행 경험이 개선될 것으로 기대됩니다.

google

Real-time speech-to-speech translation (새 탭에서 열림)

Google DeepMind는 원본 화자의 목소리를 유지하면서 단 2초의 지연 시간으로 실시간 통역이 가능한 혁신적인 엔드투엔드 음성 대 음성 번역(S2ST) 모델을 공개했습니다. 기존의 계층적 방식이 가졌던 높은 지연 시간과 개성 없는 음성 출력 문제를 해결하기 위해, 연구진은 스트리밍 아키텍처와 시계열 동기화 데이터 파이프라인을 결합했습니다. 이 기술은 언어 장벽을 넘어 원어민의 음색으로 즉각적인 소통을 가능하게 함으로써 더 자연스러운 원격 대화 환경을 제공합니다. ### 기존 계층적(Cascaded) S2ST의 한계 * 일반적인 실시간 번역 시스템은 음성 인식(ASR), 기계 번역(AST), 음성 합성(TTS)의 세 가지 개별 단계를 거치는 계층적 구조를 사용합니다. * 이러한 방식은 각 단계에서 발생하는 지연이 누적되어 결과적으로 4~5초 이상의 지연 시간이 발생하며, 이는 대화의 흐름을 끊고 턴제 대화를 강요하게 됩니다. * 또한 각 단계별로 오류가 누적될 위험이 크고, 일반적인 TTS를 사용하기 때문에 원본 화자의 목소리 특성을 살리지 못한다는 단점이 있습니다. ### 확장 가능한 시계열 동기화 데이터 파이프라인 * 원본 음성과 번역된 음성 간의 정확한 시점 일치를 위해 대규모 시계열 동기화 데이터 세트를 생성하는 새로운 파이프라인을 구축했습니다. * 강제 정렬(Forced Alignment) 알고리즘을 사용하여 오디오와 텍스트를 매핑하고, 기계 번역된 텍스트가 원본 오디오의 타이밍에 맞게 배치되도록 정밀하게 설계되었습니다. * 커스텀 TTS 엔진을 통해 원본 화자의 목소리 특성을 유지하면서 자연스러운 대상 언어 음성을 생성하며, 지연 시간 요건을 충족하지 못하는 데이터는 엄격한 필터링 과정을 통해 제외됩니다. ### 엔드투엔드 스트리밍 아키텍처 * 이 모델은 근본적인 트랜스포머 블록을 기반으로 하며, 실시간 처리에 최적화된 스트리밍 인코더와 디코더로 구성됩니다. * 스트리밍 인코더는 이전 10초간의 입력을 바탕으로 소스 오디오 데이터를 요약하며, 스트리밍 디코더는 압축된 상태 정보를 활용해 자기회귀(Autoregressive) 방식으로 번역된 음성을 예측합니다. * 오디오는 SpectroStream 코덱 기술을 통해 RVQ(Residual Vector Quantization) 토큰이라는 2차원 계층 구조로 표현되며, 이는 모델이 실시간 스트림 환경에서 음성 품질과 출력 시점을 효과적으로 결정할 수 있게 합니다. 이번 연구는 실시간 번역의 고질적인 문제였던 '지연 시간'과 '화자의 정체성 손실'을 동시에 해결했다는 점에서 큰 의미가 있습니다. 2초라는 짧은 지연 시간과 화자 고유의 음색 보존은 단순한 정보 전달을 넘어 정서적 연결이 필요한 비즈니스 미팅이나 개인적인 통화 환경에서 소통의 질을 획기적으로 높여줄 것으로 기대됩니다.

google

Separating natural forests from other tree cover with AI for deforestation-free supply chains (새 탭에서 열림)

구글 딥마인드와 구글 리서치 팀이 개발한 'Natural Forests of the World 2020'은 AI를 활용해 천연림과 인공 조림지를 10미터 해상도로 정밀하게 구분해내는 새로운 지도 데이터셋입니다. 이 프로젝트는 단순한 '수목 피복(tree cover)' 데이터가 가졌던 한계를 극복하고, 생물 다양성이 풍부한 천연 생태계를 상업용 식재지와 구분함으로써 글로벌 공급망의 탈산림화 목표 달성을 돕습니다. 92.2%의 높은 정확도를 기록한 이 데이터는 EU 산림전용방지법(EUDR) 등 엄격해지는 국제 환경 규제에 대응하기 위한 핵심적인 기준점(Baseline)을 제시합니다. **기존 산림 지도의 한계와 구분 필요성** * 기존의 위성 기반 지도는 모든 목본 식생을 단순히 '수목 피복'으로 분류하여, 수백 년 된 천연 생태계와 단기 수익형 식재 공간을 구분하지 못하는 '사과와 오렌지의 비교' 오류를 범해왔습니다. * 유럽연합의 산림전용방지법(EUDR)은 2020년 12월 31일 이후 산림이 파괴되거나 황폐화된 토지에서 생산된 커피, 카카오, 고무 등의 제품 판매를 금지하고 있어, 2020년 시점의 정확한 천연림 기준 지도가 필수적입니다. * 천연림은 탄소 흡수, 강수량 조절, 홍수 완화 등 기후 안정화와 생물 종 보호 측면에서 인공림이 대체할 수 없는 고유한 가치를 지닙니다. **MTSViT 모델을 활용한 AI 분석 기술** * 구글은 '다중 모드 시공간 비전 트랜스포머(MTSViT)' 모델을 개발하여, 단일 시점의 위성 이미지가 아닌 시간의 흐름에 따른 변화를 분석하도록 설계했습니다. * 이 모델은 센티넬-2(Sentinel-2) 위성의 시계열 이미지와 고도, 경사 등 지형 데이터, 지리적 좌표를 결합하여 분석합니다. * AI는 1280x1280미터 패치 단위를 관찰하며 각 10x10미터 픽셀이 천연림일 확률을 계산하며, 이를 통해 복잡한 천연림과 균일하고 빠르게 자라는 상업용 식재지의 질감 및 계절적 특성을 식별합니다. **데이터 생성 및 검증 과정** * 전 세계 120만 개 이상의 패치(1280x1280m)를 샘플링하여 대규모 다중 소스 학습 데이터셋을 구축하고 MTSViT 모델을 훈련시켰습니다. * 훈련된 모델을 지구 전체 육지에 적용하여 전 세계적으로 일관된 10미터 해상도의 천연림 확률 지도를 생성했습니다. * 독립적인 글로벌 산림 관리 데이터셋을 2020년 기준으로 업데이트하여 검증한 결과, 92.2%라는 업계 최고 수준의 정확도를 입증했으며 관련 연구는 '네이처 사이언티픽 데이터(Nature Scientific Data)'에 게재되었습니다. 이 데이터셋은 구글 어스 엔진(Earth Engine) 등을 통해 공개되어 있으며, 기업은 공급망 실사를, 정부는 산림 파괴 모니터링을, 보존 단체는 보호 구역 설정 등을 수행할 때 실질적인 기술적 토대로 활용할 수 있습니다.

google

Differentially private machine learning at scale with JAX-Privacy (새 탭에서 열림)

Google DeepMind와 Google Research는 고성능 컴퓨팅 라이브러리인 JAX를 기반으로 대규모 차분 프라이버시(Differential Privacy, DP) 머신러닝을 구현할 수 있는 **JAX-Privacy 1.0**을 정식 공개했습니다. 이 라이브러리는 현대적인 파운데이션 모델의 학습 규모에 맞춰 설계되었으며, 복잡한 프라이버시 알고리즘을 효율적이고 모듈화된 방식으로 제공하여 연구자와 개발자가 데이터 보안을 유지하면서도 모델 성능을 최적화할 수 있도록 돕습니다. JAX의 강력한 병렬 처리 기능과 최신 DP 연구 성과를 결합함으로써, 이론 중심의 프라이버시 기술을 실제 대규모 AI 프로덕션 환경에 적용할 수 있는 기틀을 마련했습니다. ### 대규모 모델 학습을 위한 프라이버시 기술의 필요성 * **DP 구현의 기술적 난제:** 차분 프라이버시의 표준 방식인 DP-SGD는 개별 데이터별 그래디언트 클리핑(per-example gradient clipping)과 정밀한 노이즈 추가를 요구하는데, 이는 현대적 대규모 모델 학습에서 계산 비용이 매우 높고 구현이 까다롭습니다. * **JAX 생태계와의 결합:** JAX-Privacy는 JAX의 자동 미분, JIT 컴파일, 그리고 `vmap`(자동 벡터화) 및 `shard_map`(병렬 처리) 기능을 활용하여 수천 개의 가속기에서 대규모 모델을 효율적으로 학습할 수 있는 환경을 제공합니다. * **확장성 문제 해결:** 기존 프레임워크들이 대규모 환경에서 겪던 유연성 부족 문제를 해결하기 위해, 데이터 병렬화 및 모델 병렬화를 기본적으로 지원하도록 설계되었습니다. ### JAX-Privacy 1.0의 핵심 구성 요소 * **핵심 빌딩 블록:** 그래디언트 클리핑, 노이즈 추가, 데이터 배치 구성 등 DP의 기본 프리미티브를 효율적으로 구현하여 DP-SGD 및 DP-FTRL과 같은 알고리즘을 손쉽게 구축할 수 있습니다. * **최신 알고리즘 지원:** 반복 작업 간에 상관관계가 있는 노이즈를 주입하여 성능을 높이는 'DP 행렬 분해(Matrix Factorization)'와 같은 최첨단 연구 성과가 포함되어 있습니다. * **대규모 배치 처리 최적화:** 프라이버시와 유틸리티 간의 최적의 균형을 찾기 위해 필수적인 대규모 가변 크기 배치를 처리할 수 있도록 마이크로 배칭(micro-batching) 및 패딩 도구를 제공합니다. * **모듈성 및 호환성:** Flax(신경망 아키텍처) 및 Optax(최적화 도구)와 같은 JAX 생태계의 라이브러리들과 매끄럽게 연동되어 기존 워크플로우에 쉽게 통합됩니다. ### 프라이버시 보증을 위한 감사 및 검증 도구 * **프라이버시 어카운팅(Accounting):** 학습 과정에서 발생하는 프라이버시 소모량($\epsilon$, 에psilon)을 정확하게 계산하고 추적할 수 있는 도구를 포함합니다. * **실증적 감사(Auditing):** 구현된 모델이 실제로 프라이버시 보증을 준수하는지 실험적으로 검증하고 취약점을 찾아낼 수 있는 감사 기능을 제공하여 신뢰성을 높였습니다. * **재현성 확보:** Google 내부에서 사용되던 검증된 코드를 공개함으로써 외부 연구자들이 최신 DP 학습 기법을 재현하고 검증할 수 있는 표준을 제시합니다. ### 실용적인 활용 제안 민감한 개인 정보를 포함한 데이터로 대규모 언어 모델(LLM)을 미세 조정하거나 파운데이션 모델을 학습시켜야 하는 조직에게 JAX-Privacy 1.0은 필수적인 도구입니다. 개발자들은 GitHub에 공개된 공식 저장소를 통해 제공되는 튜토리얼을 참고하여, 기존의 JAX 기반 학습 파이프라인에 최소한의 코드 변경만으로 강력한 차분 프라이버시 보호 기능을 도입할 것을 권장합니다.

google

Introducing Nested Learning: A new ML paradigm for continual learning (새 탭에서 열림)

구글 리서치에서 발표한 중첩 학습(Nested Learning)은 머신러닝 모델을 단일한 최적화 과정이 아닌 서로 연결된 여러 층위의 최적화 문제로 재정의하여, 새로운 지식을 학습할 때 기존 지식을 잊어버리는 '치명적 망각(Catastrophic Forgetting)' 문제를 해결하고자 합니다. 이 패러다임은 모델의 아키텍처와 최적화 알고리즘을 별개의 요소가 아닌 정보 흐름과 업데이트 빈도가 다른 동일한 개념의 연장선으로 통합하여 관리합니다. 이를 통해 모델은 인간의 뇌처럼 신경 가소성을 발휘하며 실시간으로 지식을 습득하면서도 과거의 숙련도를 유지할 수 있는 강력한 연속 학습(Continual Learning) 능력을 갖추게 됩니다. ### 중첩 학습의 패러다임과 핵심 원리 * 중첩 학습은 복잡한 머신러닝 모델을 상호 연결된 다층적 최적화 문제의 집합으로 간주하며, 각 내부 문제마다 고유한 '문맥 흐름(Context Flow)'을 가집니다. * 연상 기억(Associative Memory) 관점에서 역전파(Backpropagation) 과정을 분석한 결과, 모델이 데이터 포인트를 로컬 오차 값에 매핑하는 학습 과정 자체가 일종의 기억 시스템임을 입증했습니다. * 트랜스포머의 어텐션 메커니즘 역시 토큰 간의 매핑을 학습하는 단순한 연상 기억 모듈로 공식화할 수 있으며, 이는 모델 구조와 최적화 규칙이 본질적으로 같다는 점을 시사합니다. * 각 구성 요소의 가중치가 조정되는 주기를 의미하는 '업데이트 빈도(Update Frequency Rate)'를 정의함으로써, 최적화 문제들을 여러 수준(Level)으로 서열화하고 제어할 수 있습니다. ### 딥 옵티마이저(Deep Optimizers)의 재구성 * 중첩 학습 관점에서는 모멘텀 기반 옵티마이저를 연상 기억 모듈로 취급할 수 있으며, 이를 통해 기존 최적화 알고리즘을 원칙적으로 개선할 수 있는 경로를 제공합니다. * 기존 옵티마이저들이 데이터 샘플 간의 관계를 충분히 고려하지 않는 단순 내적 유사도에 의존했다면, 중첩 학습은 이를 L2 회귀 손실(L2 regression loss) 기반의 목적 함수로 대체합니다. * 이러한 수식의 변화를 통해 데이터가 불완전하거나 노이즈가 섞인 상황에서도 모델이 더욱 견고하게 학습을 지속할 수 있는 새로운 모멘텀 공식을 도출했습니다. ### 연속적 메모리 시스템과 'Hope' 아키텍처 * 표준 트랜스포머가 단기 메모리로서 현재 문맥만 유지하는 한계를 극복하기 위해, 업데이트 빈도를 다르게 설정한 계층적 메모리 시스템을 적용했습니다. * 이 패러다임을 실제 검증하기 위해 설계된 자가 수정형 아키텍처 'Hope'는 기존 최첨단 모델들보다 언어 모델링 성능이 우수하며, 특히 긴 문맥(Long-context) 관리 능력에서 탁월한 성과를 보였습니다. * 인간의 뇌가 단기 기억을 장기 기억으로 전이시키는 것과 유사하게, 각 구성 요소의 업데이트 속도를 최적화함으로써 정보의 저장과 회상을 더욱 효율적으로 관리할 수 있습니다. 중첩 학습은 모델 아키텍처와 학습 알고리즘 사이의 가로막힌 벽을 허물고, 인공지능이 데이터를 학습하는 방식을 근본적으로 재설계할 수 있는 도구를 제공합니다. 특히 대규모 언어 모델(LLM)이 사전 학습된 정적 지식에 머물지 않고 실시간으로 지식을 확장해야 하는 상황에서, 중첩 학습 기반의 설계를 도입하면 치명적 망각 없이 지속 가능한 인공지능 시스템을 구축하는 데 큰 도움이 될 것입니다.

google

DS-STAR: A state-of-the-art versatile data science agent (새 탭에서 열림)

DS-STAR는 통계 분석부터 시각화, 데이터 가공에 이르는 방대한 작업을 자동화하는 최첨단 데이터 과학 에이전트로, 특히 구조화되지 않은 다양한 형식의 데이터를 처리하는 데 탁월한 성능을 보입니다. 이 에이전트는 데이터 파일의 맥락을 자동으로 추출하고, 생성된 계획을 검증하며, 피드백에 따라 계획을 반복적으로 수정하는 세 가지 핵심 혁신을 통해 기존 모델의 한계를 극복했습니다. 결과적으로 DABStep을 포함한 주요 데이터 과학 벤치마크에서 기존의 최첨단 모델들을 제치고 1위를 차지하며 그 실효성을 입증했습니다. **다양한 데이터 형식의 자동 분석 및 맥락 추출** * 기존 데이터 과학 에이전트들이 CSV와 같은 정형 데이터에 의존했던 것과 달리, DS-STAR는 JSON, 비구조화 텍스트, 마크다운 등 현실 세계의 다양한 데이터 형식을 처리할 수 있습니다. * 워크플로의 첫 단계에서 디렉토리 내의 모든 파일을 자동으로 조사하여 데이터의 구조와 내용을 텍스트 요약 형태로 추출합니다. * 이 요약 정보는 에이전트가 당면한 과제를 해결하는 데 필요한 필수적인 맥락 데이터로 활용됩니다. **반복적 계획 수립 및 검증 프레임워크** * DS-STAR는 계획(Planner), 구현(Coder), 검증(Verifier), 라우팅(Router) 단계로 구성된 반복 루프를 통해 작동합니다. * LLM 기반의 검증 에이전트(Verifier)가 각 단계에서 수립된 계획의 충분성을 평가하며, 만약 미흡하다고 판단될 경우 라우터(Router)가 단계를 수정하거나 추가하도록 유도합니다. * 이는 전문가가 구글 코랩(Google Colab)과 같은 도구를 사용하여 중간 결과를 확인하며 순차적으로 분석을 진행하는 방식을 모방한 것으로, 최대 10회까지 반복 정제 과정을 거칩니다. **벤치마크 성능 및 실전 데이터 대응 능력** * DABStep, KramaBench, DA-Code와 같은 주요 벤치마크 평가에서 AutoGen 및 DA-Agent와 같은 기존 모델들을 일관되게 압도했습니다. * 특히 DABStep 벤치마크에서는 정확도를 기존 41.0%에서 45.2%로 끌어올리며 공공 리더보드 1위를 기록했습니다. * 단일 파일 작업(Easy task)뿐만 아니라 여러 이기종 데이터 소스를 결합해야 하는 복잡한 작업(Hard task)에서 경쟁 모델 대비 압도적인 성능 우위를 보였습니다. DS-STAR는 정형 데이터에 국한되지 않고 실제 비즈니스 현장의 파편화된 데이터를 통합 분석해야 하는 환경에서 매우 유용한 도구가 될 수 있습니다. 복잡한 데이터 과학 워크플로를 자동화하고자 하는 조직은 DS-STAR의 순차적 계획 수립 및 자기 검증 메커니즘을 도입함으로써 분석의 정확도와 신뢰성을 획기적으로 높일 수 있을 것입니다.

google

Forecasting the future of forests with AI: From counting losses to predicting risk (새 탭에서 열림)

구글 딥마인드와 구글 리서치 팀은 인공지능을 활용해 삼림 벌채 위험을 사전에 예측하는 딥러닝 모델인 '포레스트캐스트(ForestCast)'를 공개했습니다. 이 모델은 과거의 손실을 기록하는 수준을 넘어 위성 데이터와 비전 트랜스포머(Vision Transformer) 기술을 결합하여 미래의 위험 지역을 정확하게 식별해냅니다. 연구팀은 기술적 투명성을 위해 훈련 데이터와 평가 데이터를 벤치마크 데이터셋으로 공개하여 전 세계적인 삼림 보호 노력을 지원하고자 합니다. ## 기존 삼림 벌채 예측 방식의 한계 * 삼림 벌채는 경제적, 정치적, 환경적 요인이 복잡하게 얽힌 인간 중심의 프로세스이며, 이를 예측하기 위해 기존에는 도로망, 경제 지표, 정책 집행 데이터 등 특화된 지리 공간 정보를 수집해야 했습니다. * 하지만 이러한 외부 데이터는 지역별로 파편화되어 있고 일관성이 없으며, 시간이 지나면 빠르게 구식이 된다는 단점이 있어 전 지구적인 확장이 어려웠습니다. ## 위성 데이터 기반의 순수 모델링 접근법 * 포레스트캐스트는 외부 변수 없이 Landsat 및 Sentinel 2 위성에서 얻은 '순수 위성 데이터'만을 입력값으로 사용합니다. * 특히 '변화 이력(Change history)'이라는 개념을 도입하여, 각 픽셀의 과거 벌채 여부와 시점을 데이터화해 모델에 제공합니다. * 이 방식은 위성 데이터의 연속성 덕분에 전 세계 어디에나 동일하게 적용할 수 있고, 미래에도 지속적으로 업데이트가 가능한 '미래 보장형(Future-proof)' 모델입니다. ## 비전 트랜스포머를 활용한 기술적 혁신 * 풍경의 공간적 맥락과 최근의 벌채 경향을 파악하기 위해 전체 이미지 타일(Tile)을 한 번에 처리하는 커스텀 비전 트랜스포머 모델을 설계했습니다. * 연구 결과, 도로 지도와 같은 특정 데이터를 사용한 기존 모델보다 정확도가 높거나 대등한 수준의 성능을 보였으며, 타일 내에서 다음에 벌채될 가능성이 높은 픽셀을 정교하게 예측해냈습니다. * 흥미롭게도 '변화 이력' 데이터가 가장 중요한 입력값으로 작용했는데, 이는 해당 데이터가 최근 벌채 속도의 변화와 이동하는 벌채 전선(Deforestation fronts)에 대한 고밀도 정보를 포함하고 있기 때문입니다. ## 글로벌 확장을 위한 벤치마크 공개 * 연구팀은 모델의 투명성과 재현성을 보장하기 위해 동남아시아 지역을 대상으로 한 훈련 및 평가 데이터를 공개 벤치마크 데이터셋으로 배포했습니다. * 이 데이터셋은 머신러닝 커뮤니티가 모델의 예측 원리를 분석하고 성능을 개선하는 데 활용될 수 있습니다. * 향후 라틴 아메리카와 아프리카의 열대림은 물론, 산불이나 가축 방목 등 다른 동인에 의해 숲이 사라지는 온대 및 냉대 지역으로까지 모델 적용 범위를 확장할 계획입니다. 전 지구적 온실가스 배출의 약 10%가 토지 이용 변화에서 발생하는 만큼, 이러한 AI 기반 예측 기술은 기후 위기 대응과 생물 다양성 보존을 위한 실질적인 조기 경보 시스템으로 기능할 수 있을 것입니다.