neural-networks

6 개의 포스트

Four ways Google Research scientists have been using Empirical Research Assistance (새 탭에서 열림)

Google Research의 '경험적 연구 지원(Empirical Research Assistance, ERA)' 시스템은 과학자들이 전문가 수준의 소프트웨어를 생성하여 복잡한 실제 과학 문제를 해결할 수 있도록 돕는 혁신적인 AI 도구입니다. 이 기술은 단순한 개념 증명을 넘어 역학, 우주론, 기후 모니터링 등 다양한 분야에서 기존 모델을 능가하거나 풀리지 않았던 난제를 해결하며 과학적 발견의 속도를 비약적으로 높이고 있습니다. ERA는 계산 모델링의 접근성을 민주화하고, 데이터에서 더 깊은 통찰력을 추출하며, 해석 가능하고 물리적으로 정확한 솔루션을 제공하는 데 기여하고 있습니다. ### 공중보건: 독감 및 코로나19 입원 예측 * ERA를 활용해 독감, 코로나19, 호흡기 세포융합 바이러스(RSV)로 인한 미국 내 입원 환자 수를 예측하고 질병통제예방센터(CDC)에 매주 실시간 예측치를 제출하고 있습니다. * CDC의 공개 리더보드 분석 결과, Google의 예측 모델은 기존의 주요 연구 기관 및 CDC 자체 도구와 대등하거나 이를 상회하는 수준의 정확도를 기록하며 최상위권을 유지하고 있습니다. * 이는 고가의 장비나 복잡한 역학 모델링 인프라 없이도 신종 전염병을 효과적으로 추적하고 공중보건 대응력을 높일 수 있는 가능성을 보여줍니다. ### 우주론: 우주 끈과 중력 에너지 복사 문제 해결 * 초기 우주에서 형성된 것으로 추측되는 '우주 끈(Cosmic strings)'의 중력 에너지 복사 스펙트럼 산출 과정에서 발생하는 수학적 특이점 문제를 해결했습니다. * 기존에는 GPT-5를 이용해 특정 조건(90도 각도)에서의 부분적인 해만 구했으나, Google은 ERA와 'Gemini Deep Think'를 결합해 보다 복잡한 일반해와 점근 한계(asymptotic limit)에 대한 간결한 공식을 도출했습니다. * 고급 언어 모델(LLM)과 ERA의 결합이 우주론의 최전선에서 정밀하고 새로운 수학적 해법을 찾아내는 강력한 도구가 될 수 있음을 입증했습니다. ### 기후 및 지속 가능성: 기상 위성을 활용한 이산화탄소 모니터링 * 이산화탄소(CO2) 관측 전용 위성이 아닌, 10분마다 지표면을 스캔하는 일반 기상 위성(GOES East) 데이터를 활용해 고해상도 CO2 지도를 생성하는 기술을 개발했습니다. * ERA를 통해 물리 법칙이 가이드된 신경망(physics-guided neural network)을 설계했으며, 16개 파장 대역 데이터와 기상 데이터를 결합해 기존 전용 위성보다 훨씬 높은 시공간 해상도로 CO2 변화를 추적합니다. * 지상 관측 데이터와의 비교를 통해 모델의 정확성을 검증했으며, 이는 자원 집약적인 위성 미션 대신 기존 관측 자산의 가치를 극대화할 수 있는 경제적인 대안을 제시합니다. ERA는 과학자들이 방대한 데이터를 해석 가능한 지식으로 전환하고, 복잡한 물리적 공식을 코드로 구현하는 과정에서 발생하는 병목 현상을 제거해 줍니다. 이러한 AI 기반 연구 지원은 단순히 효율성을 높이는 것에 그치지 않고, 그동안 데이터 부족이나 수학적 난제로 인해 멈춰있던 영역에서 새로운 발견을 이끌어내는 핵심 동력이 될 것입니다.

AI가 생성한 합성 뉴런으로 뇌 지도 제작 가속화 (새 탭에서 열림)

Google Research는 뇌의 복잡한 연결망을 재구성하는 커넥토믹스(Connectomics) 분야의 효율을 높이기 위해 합성 뉴런 형태를 생성하는 AI 모델 'MoGen'을 개발했습니다. MoGen이 생성한 합성 데이터를 기존 재구성 모델인 PATHFINDER의 학습에 활용한 결과, 재구성 오류를 4.4% 줄였으며 이는 생쥐 뇌 전체 지도를 제작할 때 약 157년의 수동 검토 시간을 절약할 수 있는 획기적인 성과입니다. 이번 연구는 현대적인 생성형 AI 기법을 활용해 대규모 뇌 지도 제작의 최대 병목 구간인 인적 검증 과정을 크게 단축할 수 있음을 입증했습니다. **커넥토믹스의 거대한 규모와 수동 검증의 한계** * 커넥토믹스는 뇌세포인 뉴런을 재구성하여 뇌의 배선도를 만드는 분야로, 최근 초파리 뇌 전체 지도를 완성했으나 생쥐나 인간의 뇌는 그보다 수천 배 더 커서 현재 기술로는 한계가 있습니다. * 현미경 영상을 3D 뉴런 형상으로 변환하는 과정에서 AI가 사용되지만, 최종 결과물에 대한 전문가의 수동 검토(Proofreading) 단계가 여전히 가장 많은 시간을 소요하는 병목 현상으로 작용합니다. * 뉴런은 가늘고 긴 축삭(Axon)과 복잡하게 가지를 친 수지상 돌기(Dendrite) 등 매우 불규칙하고 복잡한 기하학적 구조를 가지고 있어 AI가 이를 정확히 파악하는 데 어려움을 겪습니다. **MoGen: 포인트 클라우드 기반의 뉴런 형태 생성** * 연구진은 'PointInfinity' 포인트 클라우드 흐름 매칭(flow matching) 모델을 기반으로 한 MoGen(Neuronal Morphology Generation)을 개발했습니다. * 이 모델은 무작위적인 3D 점들의 집합(포인트 클라우드)을 점진적으로 변형시켜 실제 뉴런과 흡사한 3D 형상을 생성합니다. * 검증된 생쥐 대뇌 피질의 축삭 데이터를 학습한 MoGen은 실제 뉴런의 구부러짐, 뒤틀림, 가지치기 등의 특성을 완벽하게 재현하며, 인간 전문가조차 실제와 합성 데이터를 구별하지 못할 정도의 정교함을 보여주었습니다. **재구성 모델 PATHFINDER의 성능 최적화** * 뉴런 재구성 모델인 PATHFINDER를 학습시킬 때 MoGen이 생성한 수백만 개의 합성 데이터를 10% 비중으로 포함했습니다. * 그 결과, 서로 다른 뉴런이 하나로 합쳐지는 '병합 오류(Merge error)'를 중심으로 전체 오류율이 4.4% 감소하는 성과를 거두었습니다. * 단순한 수치처럼 보일 수 있으나, 생쥐 뇌 전체 규모로 환산하면 전문가 한 명이 157년 동안 작업해야 하는 분량의 수동 수정을 대체할 수 있는 경제적 효과를 가집니다. **오픈 소스화 및 향후 확장 계획** * Google Research는 MoGen 모델과 종별로 학습된 모델들을 오픈 소스로 공개하여 커뮤니티의 연구를 지원하고 있습니다. * 향후에는 특정 뉴런 유형(길이, 분기 수 등)을 조절하여 생성하거나, 재구성 오류가 자주 발생하는 특정 기하학적 구조를 집중적으로 학습시켜 모델을 고도화할 계획입니다. * 생쥐 외에도 금화조, 초파리 등 다양한 종의 뉴런 생성 모델을 개발 중이며, 합성 뉴런을 활용해 전자현미경 이미지를 생성하는 방식 등 공정 전반에 걸친 데이터 증강을 모색하고 있습니다. 이 기술은 향후 생쥐 뇌 전체 지도 제작과 같은 거대 프로젝트를 수행하는 데 필수적인 기반 도구가 될 것으로 보이며, 연구자들은 MoGen을 통해 확보한 데이터로 뇌 과학 연구의 속도를 한층 더 높일 수 있을 것입니다.

NeuralGCM, AI 활용해 장 (새 탭에서 열림)

Google Research가 개발한 NeuralGCM은 물리 기반 모델링과 인공지능을 결합한 하이브리드 대기 모델로, NASA의 위성 관측 데이터를 직접 학습하여 전 지구 강수 시뮬레이션의 정확도를 획기적으로 높였습니다. 이 모델은 기존 물리 모델이나 재분석 데이터 기반 AI 모델이 해결하지 못했던 강수량의 일변화 및 극한 현상을 정밀하게 재현하며, 15일 이내의 중기 예보와 수십 년 단위의 기후 시뮬레이션 모두에서 뛰어난 성능을 입증했습니다. 이는 기상 예측의 복잡성을 해결하고 기후 변화에 대한 인류의 대응력을 높이는 중요한 기술적 진보로 평가받습니다. ## 미세 규모 기상 현상과 강수 예측의 한계 * 강수 현상은 모델의 해상도보다 훨씬 작은 미세한 규모에서 발생하는 구름의 물리적 변화에 의존하기 때문에 전 지구 모델에서 가장 구현하기 까다로운 요소 중 하나입니다. * 구름은 100미터 미만의 단위로 존재하며 빠르게 변화하지만, 기존 기상 모델은 수 킬로미터, 기후 모델은 수십 킬로미터 단위의 해상도를 가집니다. * 기존 방식은 이러한 작은 규모의 프로세스를 '모수화(Parameterization)'라는 근사치 계산에 의존했으나, 이는 극한 현상을 포착하거나 장기적인 정확도를 유지하는 데 한계가 있었습니다. ## 위성 관측 데이터를 활용한 하이브리드 학습 * NeuralGCM은 대규모 유체 역학을 처리하는 '미분 가능한 동역학 코어(Differential Dynamical Core)'와 미세 물리 현상을 학습하는 신경망을 결합한 구조를 가집니다. * 기존 AI 모델들이 물리 모델과 관측치를 결합한 '재분석 데이터'를 학습한 것과 달리, NeuralGCM은 2001년부터 2018년까지의 NASA 위성 강수 관측 데이터(IMERG)를 직접 학습했습니다. * 이를 통해 재분석 데이터가 가진 강수 극값 및 일주기(Diurnal cycle) 표현의 약점을 극복하고, 실제 관측에 더 근접한 물리적 매개변수를 스스로 학습할 수 있게 되었습니다. ## 중기 예보 및 장기 기후 시뮬레이션 성과 * **중기 예보(15일):** 280km 해상도에서 선도적인 수치 예보 모델인 유럽중기예보센터(ECMWF)의 모델보다 더 정확한 강수량 예측 성능을 보여주었습니다. * **극한 현상 재현:** 상위 0.1%에 해당하는 극심한 강수 이벤트를 기존 모델보다 훨씬 더 정밀하게 시뮬레이션하는 데 성공했습니다. * **기후 변동성:** 수십 년 단위의 기후 시뮬레이션에서도 평균 강수량과 열대 지방의 오후 강수 집중 현상과 같은 일별 기상 사이클을 정확하게 포착했습니다. NeuralGCM은 현재 오픈 소스 라이브러리로 제공되고 있어 기상 및 기후 연구자들이 자유롭게 활용할 수 있습니다. 특히 농업 생산성 최적화, 도시의 홍수 대비, 재난 관리와 같이 정밀한 강수 데이터가 필수적인 분야에서 기존 수치 예보 모델을 보완하거나 대체할 수 있는 강력한 도구가 될 것으로 기대됩니다.

피너 설문조사를 통한 (새 탭에서 열림)

핀터레스트는 클릭 중심의 단순한 사용자 반응을 넘어, 사용자가 진정으로 선호하는 고품질 콘텐츠를 추천하기 위해 직접적인 설문 기반의 머신러닝 모델을 도입했습니다. 이는 '클릭베이트'와 같은 저품질 콘텐츠의 확산을 막고, 사용자의 웰빙과 장기적인 만족도를 우선시하는 '사용자 제일주의(Put Pinners First)' 가치를 실현하기 위한 시도입니다. 결과적으로 설문 데이터를 학습한 모델을 통해 홈피드, 관련 핀, 검색 서비스 전반에서 추천 콘텐츠의 품질을 성공적으로 개선했습니다. **사용자 직접 피드백을 통한 시각적 품질 데이터 확보** - '이미지가 시각적으로 얼마나 즐거움을 주는가?'라는 질문으로 1~5점 척도의 인앱 설문을 실시하여 사용자의 주관적인 품질 인식을 데이터화했습니다. - 예술, 뷰티, DIY, 홈 데코, 패션 등 5가지 주요 카테고리(L1)에서 노출 수 가중치를 적용해 5,000개의 이미지를 선정했습니다. - 개별 사용자의 주관성과 오클릭에 따른 노이즈를 줄이기 위해 이미지당 최소 10명 이상의 응답을 확보하여 평균 점수를 산출했습니다. - 설문 결과, 홈 데코 카테고리가 전반적으로 높은 점수를 받았으며 예술 카테고리는 사용자 간 평가 편차가 가장 크게 나타나는 등 카테고리별 특성이 확인되었습니다. **시각적 품질 예측을 위한 머신러닝 모델링** - 이미지의 시각적·텍스트적 특성과 핀이 저장된 보드 간의 관계를 포함한 핀터레스트 내부 임베딩 기능을 모델의 피처로 활용했습니다. - 5,000개의 상대적으로 작은 데이터셋에서 과적합(Overfitting)을 방지하고 추론 속도 및 비용을 최적화하기 위해 92,000개의 파라미터만을 가진 단순한 완전 연결 신경망(Fully-connected NN) 구조를 채택했습니다. - 절대적인 점수를 예측하는 방식 대신, 두 이미지 중 어떤 것이 더 높은 평가를 받을지 예측하는 '쌍체 순위 지정(Pairwise ranking)' 기법을 적용해 학습 효율을 높였습니다. - 특히 학습 시 동일한 카테고리 내의 이미지만 비교하게 함으로써, 모델이 콘텐츠의 주제(Semantic)가 아닌 순수한 시각적 품질 차이에 집중하도록 설계했습니다. **실용적 인사이트 및 결론** 단순히 클릭률(CTR)과 같은 단기적인 인게이지먼트 지표에만 의존하는 추천 시스템은 장기적으로 콘텐츠의 질을 저하시킬 위험이 있습니다. 핀터레스트의 사례는 정제된 소규모 설문 데이터를 활용해 사용자의 의도를 모델링에 직접 반영함으로써, 비즈니스 지표와 사용자 만족도를 동시에 잡는 '윈-윈' 전략이 가능함을 보여줍니다. 품질에 대한 정의가 모호할수록 전문가의 라벨링보다는 실제 대중 사용자의 피드백을 수집하여 평균적인 인식을 학습시키는 것이 실질적인 추천 서비스 개선에 더 효과적일 수 있습니다.

전기차 주행 거리 불안 (새 탭에서 열림)

구글 리서치는 전기차 운전자의 '주행거리 불안(range anxiety)'을 해소하기 위해 특정 시간 후의 충전 포트 가용성을 예측하는 경량화된 AI 모델을 개발했습니다. 이 모델은 복잡한 신경망 대신 단순한 선형 회귀(Linear Regression) 방식을 채택하여 짧은 지연 시간과 높은 효율성을 동시에 달성했습니다. 연구진은 직관적인 실세계 논리와 머신러닝을 결합함으로써, 충전소의 현재 상태를 단순히 유지하는 기존의 강력한 기준 모델보다 더 정확한 예측이 가능함을 입증했습니다. ## 단순하고 효율적인 선형 회귀 모델 설계 * **모델 선택의 이유**: 의사결정 나무(Decision Tree)나 심층 신경망 등 다양한 구조를 테스트했으나, 가장 성능이 우수하고 견고한 것은 단순 선형 회귀 모델이었습니다. 이는 배포 인프라와의 공동 설계를 통해 속도와 예측력을 모두 잡기 위함입니다. * **데이터 샘플링**: 캘리포니아와 독일 지역의 실시간 데이터를 활용해 훈련되었으며, 교통량이 많고 실사용 사례를 더 잘 반영하는 대형 충전소를 우선적으로 포함했습니다. * **경량 피처 활용**: 예측 속도를 극대화하기 위해 피처 세트를 최소화했으며, 사용자가 도달할 시점의 예상 가용 포트 수를 즉각적으로 계산합니다. ## 시간 기반 가중치를 통한 점유율 변화 예측 * **시간 피처(Hour Feature)**: 하루의 각 시간을 개별 피처(예: 오전 9시, 오후 5시 등)로 처리하여 시간대별 운전자의 행동 패턴을 반영합니다. * **가중치(Weights)의 의미**: 선형 회귀를 통해 학습된 가중치는 포트 점유율의 변화율을 나타냅니다. 양수 가중치는 해당 시간에 점유율이 증가함을, 음수 가중치는 점유율이 감소(포트가 비워짐)함을 의미합니다. * **예측 논리**: 모델은 단순히 현재 상태를 보여주는 것이 아니라, 현재 가용 포트 수에 시간별 가중치를 더해 미래 시점의 가용성을 산출합니다. 특히 출퇴근 시간처럼 변화가 급격한 시점에 유의미한 예측값을 제공합니다. ## 성능 검증 및 벤치마크 결과 * **강력한 베이스라인과의 비교**: '현재 상태 유지(Keep Current State)' 모델을 대조군으로 설정했습니다. 일반적으로 30분 이내에 상태가 변하는 포트는 10% 미만이기에 이를 능가하는 것은 매우 어려운 과제입니다. * **평가 지표**: 평균 제곱 오차(MSE)와 평균 절대 오차(MAE)를 사용하여 정확도를 측정했습니다. 특히 '최소 한 개의 포트가 비어있을 것인가'라는 실질적인 질문에 답하기 위해 이진 분류 성능도 평가했습니다. * **실전 성과**: 30분 및 60분 후를 예측하는 실험에서, 제안된 모델은 점유율 변동이 빈번한 결정적인 순간들을 정확히 포착하여 베이스라인보다 향상된 성능을 보여주었습니다. ## 실용적 결론 이 연구는 복잡한 AI 모델이 항상 최선은 아니라는 점을 시사합니다. 충전소 가용성 예측과 같이 실시간 응답이 중요하고 피처가 단순한 도메인에서는 선형 회귀 모델만으로도 충분히 강력한 성능을 낼 수 있습니다. 전기차 내비게이션 시스템에 이 모델을 통합하면 운전자는 경로상의 충전소에 도착했을 때 실제 충전 가능 여부를 더 높은 확률로 신뢰할 수 있게 되어, 전반적인 주행 경험이 개선될 것으로 기대됩니다.

연구에서 기후 회복력 (새 탭에서 열림)

구글 리서치는 인공지능(AI) 기술을 활용해 홍수, 사이클론, 극한 기후 등 기후 위기에 대응하고 전 지구적인 기후 회복 탄력성을 강화하고 있습니다. 과거에는 불가능하다고 여겨졌던 정밀한 기상 예측 모델을 실현함으로써 수억 명의 사람들에게 실무적인 재난 정보를 제공하고 인명 및 재산 피해 예방에 기여하고 있습니다. 연구 성과를 실제 제품과 서비스로 전환하여 데이터가 부족한 취약 지역까지 보호 범위를 확장하는 것이 이 프로젝트의 핵심 결론입니다. **AI 기반 홍수 예측 시스템의 글로벌 확산** * *Nature*지에 게재된 글로벌 수문학 AI 모델을 통해 전 세계 하천 홍수를 최대 7일 전부터 정확하게 예측할 수 있는 기술을 구현했습니다. * 구글의 '플러드 허브(Flood Hub)' 플랫폼을 통해 100개국 이상의 7억 명에게 예측 정보를 제공하며, 정부와 지역사회가 사전에 대비할 수 있도록 돕습니다. * 물리적 측정기가 없는 데이터 취약 지역을 위해 AI가 과거 데이터를 분석해 생성한 '가상 게이지(Virtual gauges)' 기술을 도입하여 150개국으로 서비스 범위를 확장했습니다. * WMO(세계기상기구) 및 주요 국가 기상청과 협력하여 홍수 예측 기술의 글로벌 스케일업을 추진하며 공공 안전을 도모합니다. **사이클론 예측의 정확도 및 리드 타임 개선** * 구글 딥마인드와 협력하여 사이클론의 발생 여부, 이동 경로, 강도, 크기 등을 최대 15일 전부터 예측하며, 50가지 이상의 발생 가능한 시나리오를 생성합니다. * 최신 기상 모델 연구 결과를 전문가와 대중에게 공유하는 인터랙티브 웹사이트 '웨더 랩(Weather Lab)'을 통해 데이터 접근성을 높였습니다. * 미국 국립허리케인센터(NHC)와 파트너십을 맺고 대서양 허리케인 시즌 동안 실험적 모델을 활용하여 더 빠르고 정확한 경보 체계를 구축하고 있습니다. **나우캐스팅을 통한 실시간 국지적 기상 정보 제공** * 지상 레이더 등 전통적 인프라가 부족한 아프리카 지역을 위해 5km 해상도, 15분 간격 업데이트를 제공하는 초단기 강수 예측(Nowcasting) 기술을 구현했습니다. * 최첨단 신경망 기상 모델인 'MetNet-3'와 글로벌 위성 관측 데이터를 결합하여 인프라 격차를 극복하고 구글 검색을 통해 실시간 정보를 제공합니다. * 정밀한 단기 예측은 특히 농업 종사자들이 기상 변화에 능동적으로 대처하게 함으로써 수확량 개선과 운영 비용 절감 등 경제적 회복력을 높이는 데 기여합니다. **글로벌 협업을 통한 기술의 실효성 확보** 기상 위기는 국경을 초월하는 문제인 만큼, 구글 리서치는 학계, 정부, 비영리 단체와의 광범위한 파트너십을 강조합니다. 기술 개발에 그치지 않고 각국의 기상 당국 및 현지 과학 커뮤니티와 모델을 공유함으로써, AI 기술이 실제 현장에서 인명을 구조하고 공동체의 안전을 지키는 실질적인 도구로 활용되도록 하는 것이 중요합니다.