Google Research / machine-learning

30 개의 포스트

google

NeuralGCM harnesses AI to better simulate long-range global precipitation (새 탭에서 열림)

Google Research가 개발한 NeuralGCM은 물리 기반 모델링과 인공지능을 결합한 하이브리드 대기 모델로, NASA의 위성 관측 데이터를 직접 학습하여 전 지구 강수 시뮬레이션의 정확도를 획기적으로 높였습니다. 이 모델은 기존 물리 모델이나 재분석 데이터 기반 AI 모델이 해결하지 못했던 강수량의 일변화 및 극한 현상을 정밀하게 재현하며, 15일 이내의 중기 예보와 수십 년 단위의 기후 시뮬레이션 모두에서 뛰어난 성능을 입증했습니다. 이는 기상 예측의 복잡성을 해결하고 기후 변화에 대한 인류의 대응력을 높이는 중요한 기술적 진보로 평가받습니다. ## 미세 규모 기상 현상과 강수 예측의 한계 * 강수 현상은 모델의 해상도보다 훨씬 작은 미세한 규모에서 발생하는 구름의 물리적 변화에 의존하기 때문에 전 지구 모델에서 가장 구현하기 까다로운 요소 중 하나입니다. * 구름은 100미터 미만의 단위로 존재하며 빠르게 변화하지만, 기존 기상 모델은 수 킬로미터, 기후 모델은 수십 킬로미터 단위의 해상도를 가집니다. * 기존 방식은 이러한 작은 규모의 프로세스를 '모수화(Parameterization)'라는 근사치 계산에 의존했으나, 이는 극한 현상을 포착하거나 장기적인 정확도를 유지하는 데 한계가 있었습니다. ## 위성 관측 데이터를 활용한 하이브리드 학습 * NeuralGCM은 대규모 유체 역학을 처리하는 '미분 가능한 동역학 코어(Differential Dynamical Core)'와 미세 물리 현상을 학습하는 신경망을 결합한 구조를 가집니다. * 기존 AI 모델들이 물리 모델과 관측치를 결합한 '재분석 데이터'를 학습한 것과 달리, NeuralGCM은 2001년부터 2018년까지의 NASA 위성 강수 관측 데이터(IMERG)를 직접 학습했습니다. * 이를 통해 재분석 데이터가 가진 강수 극값 및 일주기(Diurnal cycle) 표현의 약점을 극복하고, 실제 관측에 더 근접한 물리적 매개변수를 스스로 학습할 수 있게 되었습니다. ## 중기 예보 및 장기 기후 시뮬레이션 성과 * **중기 예보(15일):** 280km 해상도에서 선도적인 수치 예보 모델인 유럽중기예보센터(ECMWF)의 모델보다 더 정확한 강수량 예측 성능을 보여주었습니다. * **극한 현상 재현:** 상위 0.1%에 해당하는 극심한 강수 이벤트를 기존 모델보다 훨씬 더 정밀하게 시뮬레이션하는 데 성공했습니다. * **기후 변동성:** 수십 년 단위의 기후 시뮬레이션에서도 평균 강수량과 열대 지방의 오후 강수 집중 현상과 같은 일별 기상 사이클을 정확하게 포착했습니다. NeuralGCM은 현재 오픈 소스 라이브러리로 제공되고 있어 기상 및 기후 연구자들이 자유롭게 활용할 수 있습니다. 특히 농업 생산성 최적화, 도시의 홍수 대비, 재난 관리와 같이 정밀한 강수 데이터가 필수적인 분야에서 기존 수치 예보 모델을 보완하거나 대체할 수 있는 강력한 도구가 될 것으로 기대됩니다.

google

Spotlight on innovation: Google-sponsored Data Science for Health Ideathon across Africa (새 탭에서 열림)

구글 리서치는 아프리카 전역의 데이터 과학 커뮤니티와 협력하여 현지의 시급한 의료 과제를 해결하기 위한 'Data Science for Health Ideathon'을 개최했습니다. 이 대회는 MedGemma, MedSigLIP 등 구글의 개방형 의료 AI 모델을 활용해 자궁경부암 검진, 모성 건강 지원 등 아프리카 보건 시스템에 실질적인 변화를 가져올 수 있는 솔루션을 개발하는 데 중점을 두었습니다. 최종 선정된 팀들은 구글의 기술 자원과 전문가 멘토링을 통해 아이디어를 구체적인 프로토타입으로 구현하며 지역 맞춤형 AI 혁신의 가능성을 증명했습니다. **협력적 의료 혁신과 기술적 기반** * 르완다 키갈리에서 열린 'Deep Learning Indaba' 컨퍼런스를 기점으로 아프리카 AI 및 의료 커뮤니티 간의 역량 강화를 목표로 시작되었습니다. * 참가자들에게는 MedGemma(의료 LLM), TxGemma(치료제 개발 모델), MedSigLIP(의료 영상 분석 모델) 등 구글의 최신 보건 AI 모델이 제공되었습니다. * 프로젝트 수행을 위해 Google Cloud Vertex AI 컴퓨팅 크레딧과 상세 기술 문서, 구글 DeepMind 연구진의 기술 멘토링이 단계별로 지원되었습니다. **자궁경부암 및 모성 건강을 위한 AI 솔루션** * **Dawa Health (1위):** WhatsApp으로 업로드된 질확대경 영상을 MedSigLIP 기반 분류기로 실시간 분석하여 암 징후를 식별합니다. 여기에 Gemini RAG(검색 증강 생성)를 결합해 세계보건기구(WHO)와 잠비아의 프로토콜에 따른 임상 가이드를 제공합니다. * **Solver (2위):** 자궁경부 세포진 검사 자동화를 위해 MedGemma-27B-IT 모델을 LoRA(Low-Rank Adaptation) 방식으로 파인튜닝했습니다. FastAPI 기반의 웹 앱을 통해 병리 의사에게 주석이 달린 이미지와 임상 권고안을 출력합니다. * **Mkunga (3위):** 모성 건강 상담을 위해 MedGemma와 Gemini를 활용한 AI 콜센터를 구축했습니다. Vertex AI의 TTS/STT(음성 합성 및 인식) 기술을 통해 스와힐리어로 저비용 원격 진료 서비스를 제공합니다. **열악한 통신 환경을 고려한 기술적 접근** * **HexAI (최우수 PoC):** 인터넷 연결이 제한된 환경에서도 작동할 수 있는 오프라인 우선(Offline-first) 모바일 앱 'DermaDetect'를 개발했습니다. * 온디바이스(On-device) 형태의 MedSigLIP 모델을 통해 커뮤니티 건강 요원들이 현장에서 피부 질환을 즉시 분류할 수 있도록 설계되었습니다. * 고도화된 분석이 필요한 경우에만 클라우드 기반의 MedGemma와 연결하는 하이브리드 구조를 채택하여 데이터 플라이휠을 구축했습니다. 이번 사례는 고성능 의료 AI 모델이 오픈소스로 제공될 때, 현지 개발자들이 지역적 특수성과 인프라 한계를 극복하며 얼마나 창의적인 솔루션을 구축할 수 있는지 잘 보여줍니다. 특히 인프라가 부족한 지역에서는 RAG를 통한 신뢰성 확보나 온디바이스 모델링을 통한 오프라인 지원 기술이 의료 격차를 해소하는 핵심적인 전략이 될 수 있음을 시사합니다.

google

From Waveforms to Wisdom: The New Benchmark for Auditory Intelligence (새 탭에서 열림)

Google Research는 음성 지능 모델의 성능을 정밀하게 측정하고 발전시키기 위한 통합 오픈소스 플랫폼인 MSEB(Massive Sound Embedding Benchmark)를 공개했습니다. 이 벤치마크는 검색, 분류, 재구성 등 8가지 핵심 능력을 표준화하여 파편화된 기존 사운드 AI 연구를 통합하고, 범용 사운드 임베딩이 도달해야 할 기술적 목표치를 제시합니다. 초기 실험 결과 현재의 기술력은 범용성 측면에서 개선의 여지가 크며, MSEB는 이를 극복하여 인간 수준의 청각 지능을 구현하기 위한 핵심 지표로 활용될 전망입니다. ### 다각적 평가를 위한 고품질 데이터 세트 구축 * **SVQ(Simple Voice Questions) 데이터**: 17개 언어와 26개 지역의 특성을 반영한 177,352개의 짧은 음성 질의 데이터로, 화자 속성과 시간 정렬 데이터 등 풍부한 메타데이터를 포함합니다. * **실제 소음 환경 반영**: 조용한 상태, 배경 대화, 교통 소음, 미디어 소음 등 네 가지 실제 음향 환경을 시뮬레이션하여 모델의 견고성을 테스트합니다. * **도메인 확장성**: Speech-MASSIVE(의도 분류), FSD50K(환경음 인식), BirdSet(생물 음향학) 등 공공 데이터를 통합하여 인간의 언어를 넘어 자연계의 소리까지 아우르는 범용성을 확보했습니다. ### 청각 지능의 8가지 핵심 능력 정의 * **정보 접근(검색, 추론, 재순위화)**: 음성 질의를 통해 지식 베이스에서 관련 문서를 찾거나(검색), 문서 내 정답을 도출(추론)하고, 모호한 음성 인식 후보군을 원본 의도에 맞게 재정렬(재순위화)하는 능력을 평가합니다. * **기초 인지(분류, 전사, 세분화)**: 소리의 범주와 화자 속성을 분류하고, 음성을 텍스트로 변환(전사)하며, 특정 용어가 나타나는 정확한 시점을 타임스탬프로 파악(세분화)하는 기본 성능을 측정합니다. * **조직 및 생성(클러스터링, 재구성)**: 사전 정의된 레이블 없이 유사한 속성의 음성을 그룹화(클러스터링)하고, 중간 표현체인 임베딩으로부터 원본 오디오 파형을 얼마나 정밀하게 복원(재구성)할 수 있는지 확인합니다. ### 범용 임베딩 성능 분석과 연구 방향 * **성능 여유(Headroom) 확인**: 현재의 사운드 임베딩 기술이 모든 도메인에서 완벽하지 않다는 점을 시사하며, 최신 모델들도 여전히 성능 향상의 여지가 큼을 객관적인 수치로 입증했습니다. * **표준화된 평가 구조**: 단일 모달 모델부터 복합적인 멀티모달 모델까지 동일한 기준에서 성능을 비교할 수 있는 유연하고 확장 가능한 프레임워크를 제공합니다. * **미래 확장성**: 향후 음악 데이터 세트 추가 및 이미지와 결합된 멀티모달 작업으로 영역을 확장하여 실제 환경에서 활용 가능한 지능형 에이전트 개발을 지원할 예정입니다. MSEB는 사운드 기반 AI 연구가 직면한 파편화 문제를 해결하고 차세대 청각 지능을 위한 명확한 이정표를 제시합니다. 연구자들은 이 오픈소스 벤치마크를 활용해 모델의 범용성을 검증하고, 특히 복잡한 소음 환경에서의 데이터 해석 능력을 높이는 데 집중함으로써 더 자연스럽고 지능적인 음성 인터페이스를 구축할 수 있습니다.

google

Reducing EV range anxiety: How a simple AI model predicts port availability (새 탭에서 열림)

구글 리서치는 전기차 운전자의 '주행거리 불안(range anxiety)'을 해소하기 위해 특정 시간 후의 충전 포트 가용성을 예측하는 경량화된 AI 모델을 개발했습니다. 이 모델은 복잡한 신경망 대신 단순한 선형 회귀(Linear Regression) 방식을 채택하여 짧은 지연 시간과 높은 효율성을 동시에 달성했습니다. 연구진은 직관적인 실세계 논리와 머신러닝을 결합함으로써, 충전소의 현재 상태를 단순히 유지하는 기존의 강력한 기준 모델보다 더 정확한 예측이 가능함을 입증했습니다. ## 단순하고 효율적인 선형 회귀 모델 설계 * **모델 선택의 이유**: 의사결정 나무(Decision Tree)나 심층 신경망 등 다양한 구조를 테스트했으나, 가장 성능이 우수하고 견고한 것은 단순 선형 회귀 모델이었습니다. 이는 배포 인프라와의 공동 설계를 통해 속도와 예측력을 모두 잡기 위함입니다. * **데이터 샘플링**: 캘리포니아와 독일 지역의 실시간 데이터를 활용해 훈련되었으며, 교통량이 많고 실사용 사례를 더 잘 반영하는 대형 충전소를 우선적으로 포함했습니다. * **경량 피처 활용**: 예측 속도를 극대화하기 위해 피처 세트를 최소화했으며, 사용자가 도달할 시점의 예상 가용 포트 수를 즉각적으로 계산합니다. ## 시간 기반 가중치를 통한 점유율 변화 예측 * **시간 피처(Hour Feature)**: 하루의 각 시간을 개별 피처(예: 오전 9시, 오후 5시 등)로 처리하여 시간대별 운전자의 행동 패턴을 반영합니다. * **가중치(Weights)의 의미**: 선형 회귀를 통해 학습된 가중치는 포트 점유율의 변화율을 나타냅니다. 양수 가중치는 해당 시간에 점유율이 증가함을, 음수 가중치는 점유율이 감소(포트가 비워짐)함을 의미합니다. * **예측 논리**: 모델은 단순히 현재 상태를 보여주는 것이 아니라, 현재 가용 포트 수에 시간별 가중치를 더해 미래 시점의 가용성을 산출합니다. 특히 출퇴근 시간처럼 변화가 급격한 시점에 유의미한 예측값을 제공합니다. ## 성능 검증 및 벤치마크 결과 * **강력한 베이스라인과의 비교**: '현재 상태 유지(Keep Current State)' 모델을 대조군으로 설정했습니다. 일반적으로 30분 이내에 상태가 변하는 포트는 10% 미만이기에 이를 능가하는 것은 매우 어려운 과제입니다. * **평가 지표**: 평균 제곱 오차(MSE)와 평균 절대 오차(MAE)를 사용하여 정확도를 측정했습니다. 특히 '최소 한 개의 포트가 비어있을 것인가'라는 실질적인 질문에 답하기 위해 이진 분류 성능도 평가했습니다. * **실전 성과**: 30분 및 60분 후를 예측하는 실험에서, 제안된 모델은 점유율 변동이 빈번한 결정적인 순간들을 정확히 포착하여 베이스라인보다 향상된 성능을 보여주었습니다. ## 실용적 결론 이 연구는 복잡한 AI 모델이 항상 최선은 아니라는 점을 시사합니다. 충전소 가용성 예측과 같이 실시간 응답이 중요하고 피처가 단순한 도메인에서는 선형 회귀 모델만으로도 충분히 강력한 성능을 낼 수 있습니다. 전기차 내비게이션 시스템에 이 모델을 통합하면 운전자는 경로상의 충전소에 도착했을 때 실제 충전 가능 여부를 더 높은 확률로 신뢰할 수 있게 되어, 전반적인 주행 경험이 개선될 것으로 기대됩니다.

google

Real-time speech-to-speech translation (새 탭에서 열림)

Google DeepMind는 원본 화자의 목소리를 유지하면서 단 2초의 지연 시간으로 실시간 통역이 가능한 혁신적인 엔드투엔드 음성 대 음성 번역(S2ST) 모델을 공개했습니다. 기존의 계층적 방식이 가졌던 높은 지연 시간과 개성 없는 음성 출력 문제를 해결하기 위해, 연구진은 스트리밍 아키텍처와 시계열 동기화 데이터 파이프라인을 결합했습니다. 이 기술은 언어 장벽을 넘어 원어민의 음색으로 즉각적인 소통을 가능하게 함으로써 더 자연스러운 원격 대화 환경을 제공합니다. ### 기존 계층적(Cascaded) S2ST의 한계 * 일반적인 실시간 번역 시스템은 음성 인식(ASR), 기계 번역(AST), 음성 합성(TTS)의 세 가지 개별 단계를 거치는 계층적 구조를 사용합니다. * 이러한 방식은 각 단계에서 발생하는 지연이 누적되어 결과적으로 4~5초 이상의 지연 시간이 발생하며, 이는 대화의 흐름을 끊고 턴제 대화를 강요하게 됩니다. * 또한 각 단계별로 오류가 누적될 위험이 크고, 일반적인 TTS를 사용하기 때문에 원본 화자의 목소리 특성을 살리지 못한다는 단점이 있습니다. ### 확장 가능한 시계열 동기화 데이터 파이프라인 * 원본 음성과 번역된 음성 간의 정확한 시점 일치를 위해 대규모 시계열 동기화 데이터 세트를 생성하는 새로운 파이프라인을 구축했습니다. * 강제 정렬(Forced Alignment) 알고리즘을 사용하여 오디오와 텍스트를 매핑하고, 기계 번역된 텍스트가 원본 오디오의 타이밍에 맞게 배치되도록 정밀하게 설계되었습니다. * 커스텀 TTS 엔진을 통해 원본 화자의 목소리 특성을 유지하면서 자연스러운 대상 언어 음성을 생성하며, 지연 시간 요건을 충족하지 못하는 데이터는 엄격한 필터링 과정을 통해 제외됩니다. ### 엔드투엔드 스트리밍 아키텍처 * 이 모델은 근본적인 트랜스포머 블록을 기반으로 하며, 실시간 처리에 최적화된 스트리밍 인코더와 디코더로 구성됩니다. * 스트리밍 인코더는 이전 10초간의 입력을 바탕으로 소스 오디오 데이터를 요약하며, 스트리밍 디코더는 압축된 상태 정보를 활용해 자기회귀(Autoregressive) 방식으로 번역된 음성을 예측합니다. * 오디오는 SpectroStream 코덱 기술을 통해 RVQ(Residual Vector Quantization) 토큰이라는 2차원 계층 구조로 표현되며, 이는 모델이 실시간 스트림 환경에서 음성 품질과 출력 시점을 효과적으로 결정할 수 있게 합니다. 이번 연구는 실시간 번역의 고질적인 문제였던 '지연 시간'과 '화자의 정체성 손실'을 동시에 해결했다는 점에서 큰 의미가 있습니다. 2초라는 짧은 지연 시간과 화자 고유의 음색 보존은 단순한 정보 전달을 넘어 정서적 연결이 필요한 비즈니스 미팅이나 개인적인 통화 환경에서 소통의 질을 획기적으로 높여줄 것으로 기대됩니다.

google

Separating natural forests from other tree cover with AI for deforestation-free supply chains (새 탭에서 열림)

구글 딥마인드와 구글 리서치 팀이 개발한 'Natural Forests of the World 2020'은 AI를 활용해 천연림과 인공 조림지를 10미터 해상도로 정밀하게 구분해내는 새로운 지도 데이터셋입니다. 이 프로젝트는 단순한 '수목 피복(tree cover)' 데이터가 가졌던 한계를 극복하고, 생물 다양성이 풍부한 천연 생태계를 상업용 식재지와 구분함으로써 글로벌 공급망의 탈산림화 목표 달성을 돕습니다. 92.2%의 높은 정확도를 기록한 이 데이터는 EU 산림전용방지법(EUDR) 등 엄격해지는 국제 환경 규제에 대응하기 위한 핵심적인 기준점(Baseline)을 제시합니다. **기존 산림 지도의 한계와 구분 필요성** * 기존의 위성 기반 지도는 모든 목본 식생을 단순히 '수목 피복'으로 분류하여, 수백 년 된 천연 생태계와 단기 수익형 식재 공간을 구분하지 못하는 '사과와 오렌지의 비교' 오류를 범해왔습니다. * 유럽연합의 산림전용방지법(EUDR)은 2020년 12월 31일 이후 산림이 파괴되거나 황폐화된 토지에서 생산된 커피, 카카오, 고무 등의 제품 판매를 금지하고 있어, 2020년 시점의 정확한 천연림 기준 지도가 필수적입니다. * 천연림은 탄소 흡수, 강수량 조절, 홍수 완화 등 기후 안정화와 생물 종 보호 측면에서 인공림이 대체할 수 없는 고유한 가치를 지닙니다. **MTSViT 모델을 활용한 AI 분석 기술** * 구글은 '다중 모드 시공간 비전 트랜스포머(MTSViT)' 모델을 개발하여, 단일 시점의 위성 이미지가 아닌 시간의 흐름에 따른 변화를 분석하도록 설계했습니다. * 이 모델은 센티넬-2(Sentinel-2) 위성의 시계열 이미지와 고도, 경사 등 지형 데이터, 지리적 좌표를 결합하여 분석합니다. * AI는 1280x1280미터 패치 단위를 관찰하며 각 10x10미터 픽셀이 천연림일 확률을 계산하며, 이를 통해 복잡한 천연림과 균일하고 빠르게 자라는 상업용 식재지의 질감 및 계절적 특성을 식별합니다. **데이터 생성 및 검증 과정** * 전 세계 120만 개 이상의 패치(1280x1280m)를 샘플링하여 대규모 다중 소스 학습 데이터셋을 구축하고 MTSViT 모델을 훈련시켰습니다. * 훈련된 모델을 지구 전체 육지에 적용하여 전 세계적으로 일관된 10미터 해상도의 천연림 확률 지도를 생성했습니다. * 독립적인 글로벌 산림 관리 데이터셋을 2020년 기준으로 업데이트하여 검증한 결과, 92.2%라는 업계 최고 수준의 정확도를 입증했으며 관련 연구는 '네이처 사이언티픽 데이터(Nature Scientific Data)'에 게재되었습니다. 이 데이터셋은 구글 어스 엔진(Earth Engine) 등을 통해 공개되어 있으며, 기업은 공급망 실사를, 정부는 산림 파괴 모니터링을, 보존 단체는 보호 구역 설정 등을 수행할 때 실질적인 기술적 토대로 활용할 수 있습니다.

google

Differentially private machine learning at scale with JAX-Privacy (새 탭에서 열림)

Google DeepMind와 Google Research는 고성능 컴퓨팅 라이브러리인 JAX를 기반으로 대규모 차분 프라이버시(Differential Privacy, DP) 머신러닝을 구현할 수 있는 **JAX-Privacy 1.0**을 정식 공개했습니다. 이 라이브러리는 현대적인 파운데이션 모델의 학습 규모에 맞춰 설계되었으며, 복잡한 프라이버시 알고리즘을 효율적이고 모듈화된 방식으로 제공하여 연구자와 개발자가 데이터 보안을 유지하면서도 모델 성능을 최적화할 수 있도록 돕습니다. JAX의 강력한 병렬 처리 기능과 최신 DP 연구 성과를 결합함으로써, 이론 중심의 프라이버시 기술을 실제 대규모 AI 프로덕션 환경에 적용할 수 있는 기틀을 마련했습니다. ### 대규모 모델 학습을 위한 프라이버시 기술의 필요성 * **DP 구현의 기술적 난제:** 차분 프라이버시의 표준 방식인 DP-SGD는 개별 데이터별 그래디언트 클리핑(per-example gradient clipping)과 정밀한 노이즈 추가를 요구하는데, 이는 현대적 대규모 모델 학습에서 계산 비용이 매우 높고 구현이 까다롭습니다. * **JAX 생태계와의 결합:** JAX-Privacy는 JAX의 자동 미분, JIT 컴파일, 그리고 `vmap`(자동 벡터화) 및 `shard_map`(병렬 처리) 기능을 활용하여 수천 개의 가속기에서 대규모 모델을 효율적으로 학습할 수 있는 환경을 제공합니다. * **확장성 문제 해결:** 기존 프레임워크들이 대규모 환경에서 겪던 유연성 부족 문제를 해결하기 위해, 데이터 병렬화 및 모델 병렬화를 기본적으로 지원하도록 설계되었습니다. ### JAX-Privacy 1.0의 핵심 구성 요소 * **핵심 빌딩 블록:** 그래디언트 클리핑, 노이즈 추가, 데이터 배치 구성 등 DP의 기본 프리미티브를 효율적으로 구현하여 DP-SGD 및 DP-FTRL과 같은 알고리즘을 손쉽게 구축할 수 있습니다. * **최신 알고리즘 지원:** 반복 작업 간에 상관관계가 있는 노이즈를 주입하여 성능을 높이는 'DP 행렬 분해(Matrix Factorization)'와 같은 최첨단 연구 성과가 포함되어 있습니다. * **대규모 배치 처리 최적화:** 프라이버시와 유틸리티 간의 최적의 균형을 찾기 위해 필수적인 대규모 가변 크기 배치를 처리할 수 있도록 마이크로 배칭(micro-batching) 및 패딩 도구를 제공합니다. * **모듈성 및 호환성:** Flax(신경망 아키텍처) 및 Optax(최적화 도구)와 같은 JAX 생태계의 라이브러리들과 매끄럽게 연동되어 기존 워크플로우에 쉽게 통합됩니다. ### 프라이버시 보증을 위한 감사 및 검증 도구 * **프라이버시 어카운팅(Accounting):** 학습 과정에서 발생하는 프라이버시 소모량($\epsilon$, 에psilon)을 정확하게 계산하고 추적할 수 있는 도구를 포함합니다. * **실증적 감사(Auditing):** 구현된 모델이 실제로 프라이버시 보증을 준수하는지 실험적으로 검증하고 취약점을 찾아낼 수 있는 감사 기능을 제공하여 신뢰성을 높였습니다. * **재현성 확보:** Google 내부에서 사용되던 검증된 코드를 공개함으로써 외부 연구자들이 최신 DP 학습 기법을 재현하고 검증할 수 있는 표준을 제시합니다. ### 실용적인 활용 제안 민감한 개인 정보를 포함한 데이터로 대규모 언어 모델(LLM)을 미세 조정하거나 파운데이션 모델을 학습시켜야 하는 조직에게 JAX-Privacy 1.0은 필수적인 도구입니다. 개발자들은 GitHub에 공개된 공식 저장소를 통해 제공되는 튜토리얼을 참고하여, 기존의 JAX 기반 학습 파이프라인에 최소한의 코드 변경만으로 강력한 차분 프라이버시 보호 기능을 도입할 것을 권장합니다.

google

DS-STAR: A state-of-the-art versatile data science agent (새 탭에서 열림)

DS-STAR는 통계 분석부터 시각화, 데이터 가공에 이르는 방대한 작업을 자동화하는 최첨단 데이터 과학 에이전트로, 특히 구조화되지 않은 다양한 형식의 데이터를 처리하는 데 탁월한 성능을 보입니다. 이 에이전트는 데이터 파일의 맥락을 자동으로 추출하고, 생성된 계획을 검증하며, 피드백에 따라 계획을 반복적으로 수정하는 세 가지 핵심 혁신을 통해 기존 모델의 한계를 극복했습니다. 결과적으로 DABStep을 포함한 주요 데이터 과학 벤치마크에서 기존의 최첨단 모델들을 제치고 1위를 차지하며 그 실효성을 입증했습니다. **다양한 데이터 형식의 자동 분석 및 맥락 추출** * 기존 데이터 과학 에이전트들이 CSV와 같은 정형 데이터에 의존했던 것과 달리, DS-STAR는 JSON, 비구조화 텍스트, 마크다운 등 현실 세계의 다양한 데이터 형식을 처리할 수 있습니다. * 워크플로의 첫 단계에서 디렉토리 내의 모든 파일을 자동으로 조사하여 데이터의 구조와 내용을 텍스트 요약 형태로 추출합니다. * 이 요약 정보는 에이전트가 당면한 과제를 해결하는 데 필요한 필수적인 맥락 데이터로 활용됩니다. **반복적 계획 수립 및 검증 프레임워크** * DS-STAR는 계획(Planner), 구현(Coder), 검증(Verifier), 라우팅(Router) 단계로 구성된 반복 루프를 통해 작동합니다. * LLM 기반의 검증 에이전트(Verifier)가 각 단계에서 수립된 계획의 충분성을 평가하며, 만약 미흡하다고 판단될 경우 라우터(Router)가 단계를 수정하거나 추가하도록 유도합니다. * 이는 전문가가 구글 코랩(Google Colab)과 같은 도구를 사용하여 중간 결과를 확인하며 순차적으로 분석을 진행하는 방식을 모방한 것으로, 최대 10회까지 반복 정제 과정을 거칩니다. **벤치마크 성능 및 실전 데이터 대응 능력** * DABStep, KramaBench, DA-Code와 같은 주요 벤치마크 평가에서 AutoGen 및 DA-Agent와 같은 기존 모델들을 일관되게 압도했습니다. * 특히 DABStep 벤치마크에서는 정확도를 기존 41.0%에서 45.2%로 끌어올리며 공공 리더보드 1위를 기록했습니다. * 단일 파일 작업(Easy task)뿐만 아니라 여러 이기종 데이터 소스를 결합해야 하는 복잡한 작업(Hard task)에서 경쟁 모델 대비 압도적인 성능 우위를 보였습니다. DS-STAR는 정형 데이터에 국한되지 않고 실제 비즈니스 현장의 파편화된 데이터를 통합 분석해야 하는 환경에서 매우 유용한 도구가 될 수 있습니다. 복잡한 데이터 과학 워크플로를 자동화하고자 하는 조직은 DS-STAR의 순차적 계획 수립 및 자기 검증 메커니즘을 도입함으로써 분석의 정확도와 신뢰성을 획기적으로 높일 수 있을 것입니다.

google

Forecasting the future of forests with AI: From counting losses to predicting risk (새 탭에서 열림)

구글 딥마인드와 구글 리서치 팀은 인공지능을 활용해 삼림 벌채 위험을 사전에 예측하는 딥러닝 모델인 '포레스트캐스트(ForestCast)'를 공개했습니다. 이 모델은 과거의 손실을 기록하는 수준을 넘어 위성 데이터와 비전 트랜스포머(Vision Transformer) 기술을 결합하여 미래의 위험 지역을 정확하게 식별해냅니다. 연구팀은 기술적 투명성을 위해 훈련 데이터와 평가 데이터를 벤치마크 데이터셋으로 공개하여 전 세계적인 삼림 보호 노력을 지원하고자 합니다. ## 기존 삼림 벌채 예측 방식의 한계 * 삼림 벌채는 경제적, 정치적, 환경적 요인이 복잡하게 얽힌 인간 중심의 프로세스이며, 이를 예측하기 위해 기존에는 도로망, 경제 지표, 정책 집행 데이터 등 특화된 지리 공간 정보를 수집해야 했습니다. * 하지만 이러한 외부 데이터는 지역별로 파편화되어 있고 일관성이 없으며, 시간이 지나면 빠르게 구식이 된다는 단점이 있어 전 지구적인 확장이 어려웠습니다. ## 위성 데이터 기반의 순수 모델링 접근법 * 포레스트캐스트는 외부 변수 없이 Landsat 및 Sentinel 2 위성에서 얻은 '순수 위성 데이터'만을 입력값으로 사용합니다. * 특히 '변화 이력(Change history)'이라는 개념을 도입하여, 각 픽셀의 과거 벌채 여부와 시점을 데이터화해 모델에 제공합니다. * 이 방식은 위성 데이터의 연속성 덕분에 전 세계 어디에나 동일하게 적용할 수 있고, 미래에도 지속적으로 업데이트가 가능한 '미래 보장형(Future-proof)' 모델입니다. ## 비전 트랜스포머를 활용한 기술적 혁신 * 풍경의 공간적 맥락과 최근의 벌채 경향을 파악하기 위해 전체 이미지 타일(Tile)을 한 번에 처리하는 커스텀 비전 트랜스포머 모델을 설계했습니다. * 연구 결과, 도로 지도와 같은 특정 데이터를 사용한 기존 모델보다 정확도가 높거나 대등한 수준의 성능을 보였으며, 타일 내에서 다음에 벌채될 가능성이 높은 픽셀을 정교하게 예측해냈습니다. * 흥미롭게도 '변화 이력' 데이터가 가장 중요한 입력값으로 작용했는데, 이는 해당 데이터가 최근 벌채 속도의 변화와 이동하는 벌채 전선(Deforestation fronts)에 대한 고밀도 정보를 포함하고 있기 때문입니다. ## 글로벌 확장을 위한 벤치마크 공개 * 연구팀은 모델의 투명성과 재현성을 보장하기 위해 동남아시아 지역을 대상으로 한 훈련 및 평가 데이터를 공개 벤치마크 데이터셋으로 배포했습니다. * 이 데이터셋은 머신러닝 커뮤니티가 모델의 예측 원리를 분석하고 성능을 개선하는 데 활용될 수 있습니다. * 향후 라틴 아메리카와 아프리카의 열대림은 물론, 산불이나 가축 방목 등 다른 동인에 의해 숲이 사라지는 온대 및 냉대 지역으로까지 모델 적용 범위를 확장할 계획입니다. 전 지구적 온실가스 배출의 약 10%가 토지 이용 변화에서 발생하는 만큼, 이러한 AI 기반 예측 기술은 기후 위기 대응과 생물 다양성 보존을 위한 실질적인 조기 경보 시스템으로 기능할 수 있을 것입니다.

google

Exploring a space-based, scalable AI infrastructure system design (새 탭에서 열림)

구글의 '프로젝트 선캐처(Project Suncatcher)'는 지상의 자원 제약을 넘어 AI 연산 능력을 극대화하기 위해 태양광 기반 위성 네트워크에 TPU를 탑재하는 우주 기반 AI 인프라 설계를 제안합니다. 이 프로젝트는 태양 에너지가 지상보다 월등히 효율적인 우주 환경에서 데이터 센터급 대역폭과 고성능 연산 장치를 결합하여 지속 가능하고 확장성 있는 머신러닝 인프라를 구축하는 것을 목표로 합니다. 초기 연구 결과, 초고속 광통신과 정밀한 궤도 제어, 최신 TPU의 방사선 내성 검증을 통해 이러한 야심 찬 구상이 기술적으로 실현 가능함을 확인했습니다. **우주 기반 AI 인프라의 당위성** * 지상 대비 최대 8배 높은 태양광 발전 효율과 배터리 의존도를 낮추는 일출-일몰 태양 동기 궤도(Sun-synchronous orbit)를 활용하여 전력을 거의 연속적으로 공급받을 수 있습니다. * 지구의 자원 사용을 최소화하면서도 100조 배 이상의 잠재적 에너지원을 가진 태양을 직접 활용하여 AI 학습의 규모를 확장할 수 있는 새로운 지평을 제시합니다. * 소형 위성들을 모듈식으로 연결하여 지능형 성단(Constellation)을 형성함으로써 지상 데이터 센터 수준의 성능을 구현하는 초거대 AI 클러스터를 지향합니다. **데이터 센터급 초고속 위성 간 광통신** * 대규모 머신러닝 작업을 수행하기 위해 위성 간 통신(ISL)에서 지상 데이터 센터와 대등한 수십 Tbps급 대역폭 확보가 필수적이며, 이를 위해 DWDM(고밀도 파장 분할 다중화) 및 공간 다중화 기술을 적용합니다. * 신호 감쇄 문제를 해결하기 위해 위성들을 수 킬로미터 이내의 초근접 거리에서 군집 비행시켜 전력 효율적인 링크 버젯(Link budget)을 확보하는 전략을 사용합니다. * 벤치마크 테스트 결과, 단일 송수신기 쌍으로 양방향 총 1.6 Tbps 전송 속도를 구현하는 데 성공하며 기술적 타당성을 입증했습니다. **정밀한 위성 군집 제어 및 궤도 역학** * 수백 미터 간격을 유지하는 고밀도 위성 군집을 제어하기 위해 Hill-Clohessy-Wiltshire 방정식과 JAX 기반의 미분 가능한 수치 모델을 결합하여 정밀한 물리 시뮬레이션을 수행했습니다. * 지구의 비구형 중력장과 대기 항력 등 궤도에 영향을 주는 섭동 요인을 계산한 결과, 최소한의 기동만으로도 안정적인 태양 동기 궤도 유지가 가능함을 확인했습니다. * 81개의 위성으로 구성된 클러스터 모델링을 통해 위성 간 충돌 없이 밀집 대형을 유지하며 지속적인 통신 연결성을 확보할 수 있음을 보여주었습니다. **TPU의 우주 환경 내구성 및 안정성** * 구글의 6세대 Cloud TPU인 '트릴리움(Trillium)'을 대상으로 67MeV 양성자 빔 조사를 실시하여 우주 방사선에 의한 총 이온화 선량(TID) 및 단일 사건 효과(SEE)를 테스트했습니다. * 우주 환경에서 머신러닝 가속기가 안정적으로 작동할 수 있는지에 대한 초기 실험 결과는 긍정적이며, 이는 상용 칩 기반의 우주 컴퓨팅 가능성을 시사합니다. 이 연구는 아직 초기 단계의 '문샷(Moonshot)' 프로젝트이지만, 우주라는 새로운 공간을 활용해 AI 기술의 물리적 한계를 돌파하려는 혁신적인 시도입니다. 향후 우주 기반 AI 인프라가 실현된다면 에너지 효율과 연산 성능을 획기적으로 높여 인류가 직면한 거대한 도전 과제들을 해결하는 강력한 도구가 될 것입니다.

google

Solving virtual machine puzzles: How AI is optimizing cloud computing (새 탭에서 열림)

구글 리서치와 딥마인드가 개발한 LAVA는 클라우드 데이터 센터의 자원 효율성을 극대화하기 위해 가상 머신(VM)의 수명을 실시간으로 예측하고 적응하는 새로운 스케줄링 알고리즘입니다. 기존의 단발성 예측 방식에서 벗어나 VM이 실행되는 동안 지속적으로 남은 수명을 재예측하는 방식을 채택하여 자원 파편화와 낭비를 획기적으로 줄였습니다. 이 시스템은 실제 구글의 대규모 클러스터 관리 시스템인 Borg에 적용되어 빈 호스트 확보 및 자원 활용도 측면에서 유의미한 성능 향상을 입증했습니다. ## 수명 예측의 불확실성과 연속 재예측 기술 * 클라우드 VM의 수명은 매우 불확실하며, 대다수의 단기 VM(88%)이 아주 적은 자원(2%)만 사용하는 반면 극소수의 장기 VM이 대부분의 자원을 점유하는 롱테일(Long-tail) 분포를 보입니다. * LAVA는 생존 분석(Survival Analysis)에서 영감을 얻은 머신러닝 모델을 사용하여 VM 수명을 단일 값이 아닌 확률 분포로 예측함으로써 내재된 불확실성을 관리합니다. * "연속 재예측(Continuous Reprediction)" 기능을 통해 VM이 실행되는 동안 축적된 정보를 바탕으로 남은 수명을 실시간으로 업데이트하며, 이를 통해 초기 예측 오류를 스스로 수정하고 정확도를 높입니다. ## NILAS: 기존 시스템에 통합되는 비침습적 스케줄링 * NILAS(Non-Invasive Lifetime Aware Scheduling)는 기존 구글의 Borg 스케줄러 점수 함수에 수명 예측 데이터를 통합한 알고리즘입니다. * 새로운 VM을 배치할 때 해당 호스트에 이미 있는 VM들의 예상 종료 시간을 고려하여, 비슷한 시기에 종료될 VM들을 한곳에 모읍니다. * 이 방식은 특정 시점에 호스트 내의 모든 VM이 동시에 종료되도록 유도하여, 대규모 작업이나 유지보수에 필수적인 '빈 호스트'를 더 많이 확보하는 데 기여합니다. ## LAVA와 LARS를 통한 자원 배치 및 재배치 최적화 * **LAVA (Lifetime-Aware VM Allocation):** 장기 VM이 점유 중인 호스트의 남은 유휴 공간에 아주 짧은 수명의 VM들을 배치하는 전략입니다. 이는 자원 파편화(Resource Stranding)를 방지하며, 단기 VM이 빠르게 종료되므로 호스트의 전체 수명에 영향을 주지 않고 효율을 높입니다. * **LARS (Lifetime-Aware Rescheduling):** 데이터 센터 유지보수나 파편화 제거가 필요할 때, 예측된 수명이 긴 VM부터 우선적으로 다른 호스트로 이주시킵니다. 수명이 짧은 VM은 이주시키지 않고 자연스럽게 종료되도록 기다림으로써 불필요한 시스템 중단과 이동 비용을 최소화합니다. LAVA의 도입은 예측 불가능한 사용자 워크로드를 다루는 클라우드 인프라에서 단순한 정적 규칙보다 실시간 데이터 기반의 적응형 알고리즘이 훨씬 효과적임을 시사합니다. 이러한 접근법은 대규모 데이터 센터 운영에서 경제적 효율성을 높일 뿐만 아니라, 서버 가동률 최적화를 통해 에너지 소비를 줄이는 환경적 지속 가능성 측면에서도 중요한 솔루션이 될 수 있습니다.

google

Using AI to identify genetic variants in tumors with DeepSomatic (새 탭에서 열림)

DeepSomatic은 구글 리서치가 개발한 AI 기반 도구로, 암 세포에서 발생하는 후천적 유전 변이(체세포 변이)를 정밀하게 식별하여 맞춤형 암 치료를 지원합니다. 기존 방식보다 높은 정확도를 자랑하는 이 모델은 합성곱 신경망(CNN)을 활용해 다양한 시퀀싱 플랫폼과 샘플 유형에 유연하게 대응할 수 있도록 설계되었습니다. 연구팀은 이 도구와 고품질 학습 데이터셋을 오픈소스로 공개하여 정밀 의료 및 암 연구의 가속화를 도모하고 있습니다. ### 체세포 변이 식별의 기술적 난제 * 암은 DNA 복제 오류나 환경적 요인으로 인해 출생 후 발생하는 '체세포 변이(Somatic variants)'에 의해 유발되며, 이는 종양의 발생과 전이를 주도합니다. * 모든 세포에 존재하는 부모로부터 물려받은 '생식세포 변이(Germline variants)'와 달리, 체세포 변이는 종양 내 특정 세포군에서만 서로 다른 빈도로 나타나기 때문에 식별이 매우 어렵습니다. * 특히 시퀀싱 과정에서 발생하는 미세한 기계적 오류율이 실제 체세포 변이의 발생률보다 높을 수 있어, 단순 노이즈와 실제 암 유발 변이를 정확히 구분하는 기술이 필수적입니다. ### 합성곱 신경망(CNN) 기반의 이미지 분석 기법 * DeepSomatic은 유전체 시퀀싱 데이터를 이미지 형태로 변환하여 분석하며, 이는 구글의 기존 도구인 DeepVariant의 메커니즘을 발전시킨 방식입니다. * 변환된 이미지는 염색체 정렬 상태, 시퀀싱 품질 등 다양한 변수를 시각화하여 포함하며, CNN 모델이 이 이미지를 학습하여 패턴을 인식합니다. * 모델은 참조 유전체(Reference genome), 개인의 고유한 생식세포 변이, 그리고 암으로 인한 체세포 변이를 삼차원적으로 비교 분석하여 시퀀싱 오류를 효과적으로 걸러내고 실제 변이 목록을 도출합니다. ### 다양한 임상 환경에 최적화된 분석 모드 * 종양 세포와 정상 세포를 함께 분석하는 '쌍체 모드(Paired mode)'를 통해 변이의 기원을 명확히 판별할 수 있습니다. * 정상 세포를 확보하기 어려운 혈액암(백혈병 등)과 같은 상황을 위해, 종양 데이터만으로 변이를 찾는 '종양 전용 모드(Tumor-only mode)'도 지원하여 활용도를 높였습니다. * 모든 주요 시퀀싱 플랫폼 데이터와 호환되며, 학습 과정에서 다루지 않은 새로운 암 종류에 대해서도 뛰어난 일반화 성능과 정확도를 보여줍니다. DeepSomatic은 암의 복잡한 유전적 특성을 파악하는 데 강력한 분석력을 제공하며, 특히 희귀하거나 미세한 변이를 찾아내는 데 탁월한 성능을 발휘합니다. 연구자와 임상의는 오픈소스로 공개된 이 도구와 CASTLE 데이터셋을 활용해 환자 개개인의 암 특성에 최적화된 맞춤형 치료 전략을 수립함으로써 정밀 의료의 실현을 앞당길 수 있을 것으로 기대됩니다.

google

Coral NPU: A full-stack platform for Edge AI (새 탭에서 열림)

Coral NPU는 저전력 엣지 기기와 웨어러블 장치에서 상시 가동되는 AI를 구현하기 위해 설계된 오픈소스 풀스택 플랫폼입니다. 구글 리서치와 구글 딥마인드가 공동 설계한 이 플랫폼은 기존 클라우드 기반 모델의 한계를 넘어 개인정보 보호와 성능, 그리고 하드웨어 파편화 문제를 동시에 해결하고자 합니다. 이를 통해 스마트 워치나 AR 글래스 같은 배터리 제한적인 기기에서도 효율적인 온디바이스 AI 경험을 제공할 수 있는 기반을 마련했습니다. **엣지 AI 도입의 주요 장벽** * **성능 및 전력 격차:** 최신 ML 모델은 높은 연산력을 요구하지만, 엣지 기기는 전력, 발열, 메모리 자원이 극도로 제한되어 있어 클라우드 없이 실행하기 어렵습니다. * **소프트웨어 파편화:** 다양한 독자적 프로세서에 맞춰 모델을 컴파일하고 최적화하는 과정이 복잡하고 비용이 많이 들어, 기기 간 일관된 성능 유지가 어렵습니다. * **사용자 신뢰와 보안:** 진정한 개인 맞춤형 AI를 위해서는 개인 데이터를 클라우드로 전송하지 않고 기기 로컬 내에서 안전하게 처리하는 환경이 필수적입니다. **AI 우선주의 하드웨어 아키텍처** * **설계의 역발상:** 전통적인 CPU 중심 설계 대신 ML 매트릭스 엔진을 최우선으로 배치하여, 실리콘 단계부터 AI 추론 효율성을 극대화하도록 재설계되었습니다. * **RISC-V 기반 IP 블록:** 개방형 표준인 RISC-V ISA를 준수하는 아키텍처를 통해 SoC 설계자가 설계를 자유롭게 수정하거나 확장할 수 있는 유연성을 제공합니다. * **초저전력 고성능:** 수 밀리와트(mW) 정도의 전력만 소모하면서도 약 512 GOPS(Giga Operations Per Second)의 성능을 제공하여 상시 주변 감지(Ambient sensing)가 가능합니다. **Coral NPU의 핵심 구성 요소** * **스칼라 코어(Scalar Core):** 데이터 흐름을 관리하는 경량 RISC-V 프런트엔드로, 초저전력 구동을 위해 단순한 실행 모델을 채택하고 전통적인 CPU 기능을 수행합니다. * **벡터 실행 유닛(Vector Unit):** RISC-V 벡터 명령어 세트(RVV v1.0)를 준수하는 SIMD 코프로세서로, 대규모 데이터 세트를 동시에 처리하는 능력을 갖췄습니다. * **매트릭스 실행 유닛(Matrix Unit):** 신경망 연산의 핵심인 양자화된 외적 곱셈-누산(MAC)을 가속하기 위해 특별히 설계된 엔진으로, 현재 개발 중이며 곧 오픈소스로 공개될 예정입니다. **통합된 개발자 경험 및 소프트웨어 스택** * **유연한 프레임워크 지원:** TensorFlow, JAX, PyTorch 등의 모델을 IREE나 TFLM 같은 현대적 컴파일러를 통해 쉽게 배포할 수 있는 환경을 제공합니다. * **MLIR 기반 도구 체인:** StableHLO와 MLIR 포맷을 활용하여 모델을 효율적으로 변환하고, 시뮬레이터와 커스텀 커널을 통해 최적화된 경로를 지원합니다. * **C언어 프로그래밍 가능:** 하드웨어 가속기임에도 개발자가 익숙한 C언어로 프로그래밍할 수 있어 하드웨어의 강점을 활용하면서도 개발 난이도를 낮췄습니다. Coral NPU는 하드웨어 설계자에게는 확장 가능한 참조 아키텍처를, 소프트웨어 개발자에게는 파편화되지 않은 통합 도구를 제공합니다. 배터리 소모를 최소화하면서도 강력한 AI 기능을 구현하고자 하는 제조사나 개발자라면 구글이 공개한 문서와 깃허브(GitHub)의 오픈소스 도구를 통해 차세대 온디바이스 AI 기기 개발을 시작해 볼 수 있습니다.

google

Introducing interactive on-device segmentation in Snapseed (새 탭에서 열림)

Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.

google

Smarter nucleic acid design with NucleoBench and AdaBeam (새 탭에서 열림)

Google Research와 Move37 Labs는 핵산(DNA/RNA) 서열 설계를 위한 표준화된 벤치마크인 ‘NucleoBench’와 새로운 최적화 알고리즘인 ‘AdaBeam’을 공개했습니다. 이 연구는 방대한 유전체 서열 탐색 공간에서 최적의 치료용 분자를 설계하기 위한 기존 알고리즘의 한계를 극복하고, 16가지 생물학적 과제 중 11개에서 기존 방식보다 뛰어난 성능을 입증했습니다. 특히 AdaBeam은 긴 서열과 복잡한 예측 모델에 최적화된 확장성을 보여주며 신약 개발 과정의 시간과 비용을 획기적으로 줄일 수 있는 가능성을 제시했습니다. ### 핵산 서열 설계의 복잡성과 최적화의 난제 * **방대한 탐색 공간**: 특정 기능을 가진 RNA 분자의 5' UTR 영역 하나만 해도 가능한 서열 조합이 $2 \times 10^{120}$개 이상으로, 단순한 무작위 탐색(Brute-force)으로는 최적의 서열을 찾는 것이 불가능합니다. * **설계 알고리즘의 병목 현상**: 최근 서열의 특성을 예측하는 AI 모델은 크게 발전했으나, 이 모델을 활용해 실제 최적의 서열을 생성해내는 '설계 알고리즘'에 대한 표준화된 평가 지표는 부족한 상황이었습니다. * **기존 방식의 한계**: 유전 알고리즘이나 시뮬레이티드 어닐링(Simulated Annealing) 같은 기존의 '그래디언트 프리(Gradient-free)' 방식은 최신 딥러닝 모델 내부의 유용한 정보(그래디언트)를 활용하지 못한다는 단점이 있습니다. ### NucleoBench: 대규모 표준 벤치마크 프레임워크 * **비교 평가의 표준화**: 16가지의 서로 다른 생물학적 도전 과제에 대해 9개의 알고리즘을 동일한 시작 서열과 조건에서 테스트하여 400,000회 이상의 실험을 수행했습니다. * **다양한 과제 범위**: 특정 세포 유형(간, 신경 세포 등)에서의 유전자 발현 제어, 전사 인자 결합 최적화, 염색질 접근성 개선, Enformer와 같은 대규모 모델을 이용한 장거리 DNA 서열 예측 등이 포함됩니다. * **알고리즘 분류**: AI 모델을 블랙박스로 취급하는 '그래디언트 프리' 방식과 신경망 내부의 개선 방향(그래디언트)을 지능적으로 추적하는 '그래디언트 기반' 방식을 체계적으로 비교 분석했습니다. ### AdaBeam: 적응형 빔 서치 기반의 하이브리드 알고리즘 * **성능 우위**: NucleoBench에서 수행된 16가지 과제 중 11가지에서 기존의 최첨단 알고리즘(FastSeqProp, Ledidi 등)을 능가하는 성적을 거두었습니다. * **탁월한 확장성**: 서열의 길이가 길어지거나 예측 모델의 크기가 커질수록 성능 차이가 더욱 두드러지며, 특히 긴 DNA 서열을 다루는 복잡한 생물학적 모델에서 높은 효율성을 보입니다. * **하이브리드 접근**: 그래디언트 정보를 활용하면서도 탐색의 효율성을 극대화하는 적응형 구조를 채택하여, 모델의 예측 정확도를 최대한 활용하면서도 계산 비용을 최적화했습니다. ### 실용적인 시사점 연구진은 AdaBeam 알고리즘과 NucleoBench 프레임워크를 오픈소스로 공개하여 누구나 활용할 수 있도록 했습니다. 더 정교한 CRISPR 유전자 치료제나 안정성이 높은 mRNA 백신을 설계하려는 연구자들은 이 도구들을 통해 자신의 예측 모델에 가장 적합한 설계 알고리즘을 선택하고, 실제 실험(Wet lab) 이전에 계산적으로 검증된 최적의 후보 서열을 도출함으로써 연구의 성공률을 높일 수 있습니다.