Google Research

123 개의 포스트

research.google/blog

태그로 필터

google

Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini (새 탭에서 열림)

Google XR 팀에서 발표한 **Vibe Coding XR**은 제미나이(Gemini)와 오픈 소스 프레임워크인 'XR Blocks'를 결합하여 자연어 프롬프트만으로 상호작용 가능한 XR(확장 현실) 애플리케이션을 생성하는 혁신적인 워크플로우입니다. 이 시스템은 복잡한 게임 엔진이나 센서 통합 과정 없이도 물리 법칙이 적용된 WebXR 앱을 60초 이내에 구축함으로써, 개발자가 아이디어를 Android XR 헤드셋에서 즉각적으로 검증할 수 있게 합니다. 결과적으로 공간 컴퓨팅의 진입 장벽을 낮추고 프로토타이핑 속도를 획기적으로 가속화하는 것이 이 기술의 핵심입니다. ### XR 프로토타이핑의 변화와 Vibe Coding * **전통적 방식의 한계:** 기존 XR 개발은 파편화된 인식 파이프라인, 복잡한 게임 엔진, 저수준 센서 통합 등으로 인해 숙련된 개발자에게도 진입 장벽이 높았습니다. * **Vibe Coding의 도입:** LLM이 인간의 의도를 직접 실행 가능한 코드로 변환하는 'Vibe Coding' 개념을 도입하여, 복잡한 코딩 과정 없이 의도(vibe)만으로 결과물을 만들어냅니다. * **효율성 극대화:** 며칠이 소요되던 공간 시각화 및 상호작용 테스트를 단 몇 분 만에 완료할 수 있어 아이디어의 신속한 검증과 폐기가 가능해집니다. ### Vibe Coding XR 워크플로우 * **자연어 묘사:** 사용자는 Android XR 헤드셋이나 데스크톱의 크롬 브라우저에서 "민들레를 만들어줘"와 같은 단순한 명령어를 입력합니다. * **AI 설계 및 구현:** 제미나이가 XR Blocks의 구조와 샘플을 학습하여 장면 구성, 인식 로직, 상호작용 방식을 설계하고 코드를 작성합니다. * **즉각적인 배포 및 테스트:** 생성된 앱은 'Enter XR' 버튼 클릭 한 번으로 실행되며, 핀치(Pinch) 제스처 등 손동작 인터랙션을 즉시 테스트할 수 있습니다. * **시뮬레이션 환경 제공:** 데스크톱 환경에서도 가상현실 시뮬레이터를 통해 실제 헤드셋 없이도 물리 기반 상호작용을 미리 확인하고 수정할 수 있습니다. ### 기술적 구성 요소 및 메커니즘 * **XR Blocks 프레임워크:** WebXR, three.js, LiteRT.js 등 접근성 높은 웹 기술을 기반으로 구축되어 환경 인식, AI 통합, 공간 상호작용을 관리합니다. * **전문화된 시스템 프롬프트:** 제미나이에게 공간 레이아웃, 스케일, 상호작용 거리 등 XR 환경의 모범 사례와 디자인 패턴을 가르치는 정교한 지침이 포함되어 있습니다. * **소스 코드 템플릿:** 엄선된 XR Blocks 템플릿과 소스 코드를 프롬프트 컨텍스트에 포함하여 AI의 환각(Hallucination) 현상을 방지하고 유효한 API 호출을 보장합니다. ### 실제 적용 사례 * **수학 및 과학 교육:** 오일러의 정리 시각화, 지레의 원리를 이용한 물리 실험실, 분자 연소 반응을 관찰하는 화학 실험 등 교육용 콘텐츠를 즉석에서 생성합니다. * **양자 역학 시뮬레이션:** '슈뢰딩거의 고양이' 개념을 XR로 구현하여, 상자를 열기 전까지 생사 상태가 공존하는 퀀텀 상태를 직접 체험할 수 있게 합니다. * **스포츠 프로토타이핑:** 손으로 공을 치고 주변 환경과 충돌하는 배구 게임과 같은 물리 기반 스포츠 경험을 빠르게 구축합니다. Vibe Coding XR은 복잡한 도구 학습에 시간을 쓰는 대신 아이디어의 본질에 집중할 수 있게 해줍니다. XR 개발 경험이 적은 교육자나 기획자라면 이 워크플로우를 활용해 추상적인 개념을 3차원 공간에서 시각화하는 용도로 활용해 보길 권장하며, 숙련된 개발자는 복잡한 기능을 구현하기 전 인터랙션의 "감(vibe)"을 잡는 초기 프로토타이핑 도구로 강력히 추천합니다.

google

현대 세계 매핑하기: S2Vec이 우리 도시의 언어를 학습하는 방법 (새 탭에서 열림)

Google Research가 발표한 S2Vec은 도로, 건물, 인프라와 같은 인위적 환경(Built Environment)의 복잡한 데이터를 범용적인 임베딩으로 변환하는 자기지도 학습(Self-supervised) 프레임워크입니다. 이 모델은 지리 공간 데이터를 컴퓨터 비전 모델이 이해할 수 있는 래스터(Raster) 이미지 형태로 변환하고 마스크 오토인코딩(MAE) 기법을 적용하여, 수동 레이블링 없이도 전 세계의 사회경제적 및 환경적 패턴을 정밀하게 예측합니다. 결과적으로 S2Vec은 미학습 지역에 대한 지리적 적응력에서 뛰어난 성능을 보이며, 위성 이미지 데이터와 결합했을 때 더욱 강력한 지리 공간 지능을 제공합니다. ### 지리 공간 데이터의 래스터화와 S2 기하학 활용 * **데이터 구조화의 어려움 해결:** 도시 블록은 수백 개의 데이터 포인트를 갖는 반면 농촌은 거의 없는 등 데이터의 밀도 편차가 크다는 문제를 해결하기 위해 S2 Geometry 라이브러리를 사용합니다. * **계층적 셀 분할:** 지구 표면을 계층적인 셀로 나누어 국가 단위부터 수 평방미터 단위까지 다양한 해상도로 데이터를 효율적으로 조회하고 관리합니다. * **특징 래스터화(Feature Rasterization):** 각 S2 셀 내의 건물이나 도로 유형을 계산하여 다층 이미지 형태로 재구성합니다. 예를 들어 특정 셀의 커피숍과 공원 수를 이미지의 '색상' 채널처럼 처리함으로써 성숙한 컴퓨터 비전 기술을 지리 데이터 분석에 그대로 적용할 수 있게 합니다. ### 마스크 오토인코딩(MAE)을 통한 자기지도 학습 * **레이블링 병목 현상 제거:** 전 지구적 데이터를 수동으로 태깅하는 것은 불가능하므로, 데이터의 일부를 가리고(Masking) 주변 맥락을 통해 이를 재구성하도록 학습시키는 MAE 기법을 도입했습니다. * **문맥 논리 학습:** 고층 아파트와 지하철역이 있는 곳에는 식료품점이 있을 가능성이 높다는 식의 도시 구성 요소 간 상관관계를 모델 스스로 파악합니다. * **범용 임베딩 생성:** 수백만 번의 학습 과정을 통해 특정 위치의 고유한 특성을 수학적 수치(임베딩)로 압축하며, 이는 별도의 추가 학습 없이도 다양한 분석 작업에 활용될 수 있습니다. ### 사회경제적 예측 성능 및 다중 모달 융합 * **우수한 지리적 적응성(Extrapolation):** 학습 데이터에 포함되지 않은 새로운 지역의 인구 밀도나 가구 소득 중앙값을 예측하는 제로샷(Zero-shot) 과제에서 기존 이미지 기반 모델들보다 뛰어난 성능을 입증했습니다. * **다중 모달 융합(Multimodal Fusion):** S2Vec의 인위적 환경 데이터와 위성 이미지 임베딩(RS-MaMMUT 등)을 결합했을 때 가장 높은 성능을 기록했습니다. * **환경 지표의 한계:** 탄소 배출량 예측에는 효과적이었으나, 수목 피복도(Tree cover)나 고도와 같은 자연 환경 요소 예측에는 건물 수 중심의 데이터만으로는 한계가 있어 위성 이미지와의 결합이 필수적임을 확인했습니다. S2Vec은 지리 공간 AI가 수동으로 제작된 니치 모델에서 벗어나 확장 가능한 파운데이션 모델로 나아가는 중요한 단계입니다. 도시 계획가나 연구자들은 이 임베딩을 활용해 인프라 변화가 지역 사회의 보건이나 경제에 미치는 영향을 전 지구적 규모에서 더욱 정확하게 분석할 수 있을 것으로 기대됩니다. 구체적인 환경 분석이 필요한 경우, S2Vec 단독 사용보다는 위성 이미지 모델과 결합하여 데이터의 상호보완성을 극대화하는 방식을 추천합니다.

google

TurboQuant: 극한의 압축으로 AI 효율성을 재정의하다 (새 탭에서 열림)

Google Research가 발표한 **TurboQuant**는 대규모 언어 모델(LLM)과 벡터 검색 엔진의 효율성을 극대화하기 위해 설계된 이론 기반의 압축 알고리즘입니다. 이 기술은 기존 양자화 방식의 고질적인 문제였던 메모리 오버헤드를 완전히 해결하여, 모델 성능 저하 없이 KV(Key-Value) 캐시 크기를 6배 이상 줄이고 추론 속도를 최대 8배까지 향상시킵니다. 결과적으로 TurboQuant는 추가적인 파인튜닝 없이도 초거대 AI 모델의 메모리 병목 현상을 해결하는 실질적인 솔루션을 제시합니다. ### 기존 양자화 방식의 한계와 메모리 오버헤드 * 전통적인 벡터 양자화는 데이터 크기를 줄이는 데 효과적이지만, 각 데이터 블록마다 정밀한 양자화 상수를 별도로 계산하고 저장해야 하는 '메모리 오버헤드'가 발생합니다. * 이러한 상수는 숫자당 보통 1~2비트의 추가 용량을 차지하며, 이는 전체 압축 효율을 떨어뜨리는 주요 원인이 됩니다. * 고차원 벡터를 사용하는 AI 모델에서는 이러한 오버헤드가 누적되어 KV 캐시의 병목 현상을 심화시키고 전체 시스템의 메모리 비용을 증가시킵니다. ### PolarQuant: 극좌표계를 활용한 혁신적 압축 * PolarQuant는 벡터를 기존의 데카르트 좌표계(X, Y, Z) 대신 극좌표계(반지름과 각도)로 변환하여 처리하는 새로운 접근 방식을 취합니다. * 데이터의 각도가 특정 패턴으로 집중되어 있다는 점을 활용하여, 경계값이 계속 변하는 사각형 그리드 대신 고정된 원형 그리드에 데이터를 매핑합니다. * 이를 통해 매번 정규화 단계를 거칠 필요가 없어져 기존 양자화 방식이 가졌던 메모리 오버헤드를 근본적으로 제거합니다. * 반지름 쌍을 재귀적으로 변환하여 최종적으로는 단 하나의 반지름과 데이터의 의미를 담은 여러 각도로 데이터를 압축합니다. ### QJL: 1비트의 마법을 통한 오차 제거 * QJL(Quantized Johnson-Lindenstrauss) 알고리즘은 데이터의 필수적인 거리와 관계를 유지하면서 고차원 데이터를 1비트 부호(+1 또는 -1)로 압축합니다. * TurboQuant의 두 번째 단계에서 사용되며, 첫 번째 단계(PolarQuant)에서 발생한 미세한 잔차 오차를 제거하는 수학적 오류 체크 역할을 수행합니다. * 고정밀 쿼리와 저정밀 데이터를 전략적으로 결합하는 특수 추정기(Estimator)를 사용하여 모델이 어텐션 스코어를 계산할 때 편향 없는 정확한 결과를 도출하게 돕습니다. ### 실험 결과 및 성능 지표 * **성능 유지:** LongBench, RULER 등 다양한 벤치마크에서 Gemma와 Mistral 모델을 테스트한 결과, KV 캐시를 3비트로 양자화해도 성능 저하가 거의 없는 것으로 나타났습니다. * **압축 효율:** 추가적인 학습이나 파인튜닝 없이도 KV 캐시 메모리 사용량을 최소 6배 이상 절감합니다. * **속도 향상:** H100 GPU 환경에서 4비트 TurboQuant를 적용할 경우, 양자화되지 않은 32비트 키 값을 사용할 때보다 어텐션 로짓 계산 속도가 최대 8배 빨라집니다. TurboQuant는 긴 컨텍스트(Long-context) 처리가 필요한 현대 AI 서비스에서 비용과 성능이라는 두 마리 토끼를 잡을 수 있는 강력한 도구입니다. 특히 하드웨어 자원이 제한된 환경에서 대규모 모델을 운영하거나, 실시간 응답 속도가 중요한 검색 서비스에 도입했을 때 가장 큰 효과를 기대할 수 있습니다.

google

The Check Up에서의 구글 리서치: 헬스케어 혁신에서 실제 의료 현장까지 (새 탭에서 열림)

구글 리서치는 AI가 단순한 건강 데이터 추적 도구를 넘어 환자와 의료진 모두를 지원하는 통합적인 협업자가 되는 새로운 의료 시대를 제시합니다. 멀티모달 모델과 글로벌 파트너십을 통해 개인화된 건강 관리부터 암 진단, 공중 보건 최적화까지 아우르는 기술 혁신을 실현하고 있으며, 이를 통해 전 세계 누구나 고품질의 의료 서비스를 누릴 수 있도록 민주화하는 것을 목표로 합니다. **개인화된 건강 관리를 위한 지능형 에이전트** * Fitbit과의 협업으로 개발된 '개인 건강 에이전트(PHA)'는 단순한 걸음 수 측정을 넘어 데이터 과학자, 도메인 전문가, 건강 코치의 역할을 동시에 수행하며 장기적인 건강 증진을 돕습니다. * 대규모 멀티모달 모델을 기반으로 웨어러블 기기의 일상 데이터를 분석하여 수면, 건강 상태, 피트니스에 대한 개인별 맞춤형 통찰력과 가이드를 제공합니다. **의료진의 역량을 강화하는 협업형 AI** * 유방암 진단 AI 시스템은 기존 선별 검사에서 놓치기 쉬운 '간격암(interval cancers)'의 25%를 추가로 발견하는 성과를 거두었으며, 전문의의 업무 부하를 줄여 환자 대면 시간을 늘리는 데 기여합니다. * 멀티 에이전트 시스템인 'AMIE'는 병력, 검사 결과, 복잡한 의료 영상을 통합적으로 추론하여 의료진이 놓칠 수 있는 패턴을 식별하며, 현재 실제 임상 환경에서 실시간 병력 청취 보조 도구로 테스트 중입니다. * 당뇨망막병증 선별 모델은 인도, 태국 등지에서 100만 건 이상의 검사를 수행하며 2분 만에 진단 결과를 제공해 실명 예방의 효율성을 극대화하고 있습니다. **의료 개발자 생태계를 위한 개방형 기초 기술** * '의료 AI 개발자 파운데이션(HAI-DEF)'을 통해 오픈 웨이트 모델과 오픈소스 도구를 무료로 제공하여 전 세계 개발자들이 독자적인 의료 앱을 구축할 수 있도록 지원합니다. * 의료 특화 모델인 'MedGemma'는 텍스트와 3D 영상 해석, 의료 전용 음성 인식을 지원하며 인도와 싱가포르 등에서 외래 환자 분류 및 일차 진료 서비스 구축에 활용되고 있습니다. **공중 보건 및 과학적 발견의 가속화** * 'Google Earth AI'의 지형 공간 모델을 공중 보건에 접목하여 홍역 예방 접종률을 우편번호 단위의 초고해상도로 추정함으로써 보건 당국이 취약 지역에 선제적으로 대응할 수 있도록 돕습니다. * 가설 생성을 지원하는 'Co-Scientist'와 암 관련 유전적 변이를 정확히 식별하는 'DeepSomatic' 등의 도구를 통해 생물 의학 및 유전학 연구의 속도를 혁신적으로 높이고 있습니다. 구글의 이러한 행보는 AI 기술의 임상적 투명성과 안전성을 확보하기 위해 학술지 논문 게재 및 글로벌 의료 기관과의 협업을 병행하고 있음을 보여줍니다. 의료 기술 개발자와 관련 종사자들은 HAI-DEF와 같은 개방형 플랫폼을 활용해 검증된 AI 모델을 각 지역의 특성에 맞게 최적화함으로써 실질적인 의료 서비스의 질을 높일 수 있을 것입니다.

google

머신러닝을 이용한 유방암 검진 워크플로우 개선 (새 탭에서 열림)

구글 리서치(Google Research)는 영국 NHS(국가 보건 서비스)와의 협력을 통해 유방암 검진 워크플로우에 인공지능(AI)을 통합하는 대규모 연구를 진행하였으며, 이를 통해 암 진단 정확도 향상과 의료진 업무 부담 경감 가능성을 확인했습니다. 연구 결과 AI 시스템은 기존의 이중 판독(Double-read) 시스템에서 인간 판독자를 보조하거나 대체할 수 있는 충분한 성능을 보였으며, 특히 침습성 암 및 간격암(Interval cancer) 발견에서 뛰어난 성과를 거두었습니다. 이는 전문 인력 부족 문제를 겪고 있는 의료 현장에 지속 가능한 검진 시스템을 구축할 수 있는 실무적 근거를 제시합니다. ### AI 시스템의 독립적 성능 및 간격암 탐지 능력 * **대규모 후향적 검증:** 12만 5천 명 이상의 여성을 대상으로 한 연구에서 AI 시스템은 기존 첫 번째 판독자(인간)보다 유의미하게 높은 민감도를 기록했습니다. * **암 발견율 향상:** 유방암 발견율이 여성 1,000명당 7.54건에서 9.33건으로 증가했으며, 특히 기존 방식에서 놓쳤던 간격암의 25%를 추가로 식별해 냈습니다. * **병변 국소화 정확도:** 단순히 상관관계에 의존하는 것이 아니라, 실제 이상 부위를 정확히 짚어내는 병변 수준의 분석(Lesion-level localization)을 통해 기술적 신뢰성을 확보했습니다. * **형평성 확인:** 연령, 인종, 유방 밀도, 사회경제적 지위 등 다양한 인구통계학적 변수 전반에서 성능 편향이 나타나지 않음을 확인했습니다. ### 기술적 실무 통합 및 배포 타당성 * **신속한 처리 속도:** 실제 임상 현장에서 AI 판독은 완료까지 중앙값 17.7분이 소요된 반면, 인간의 첫 번째 판독은 2일 이상 소요되어 검진 효율성을 극대화할 수 있음을 입증했습니다. * **데이터 분포 변화(Distribution Shift) 대응:** 과거 학습 데이터와 현대 임상 데이터 간의 차이를 식별함으로써, 안전한 AI 도입을 위해 현장 맞춤형 '운영 지점(Operating point)' 보정 절차가 필수적임을 확인했습니다. * **단계적 도입 전략:** 12개 검진 사이트에 비개입형(Non-interventional)으로 배포하여 기술적 통합 과정을 점검하고, 실제 워크플로우 내에서의 실현 가능성을 증명했습니다. ### 인간과 AI의 협업 모델 및 이중 판독 워크플로우 * **AI 기반 이중 판독:** 두 명의 인간이 판독하던 기존 방식 대신 '인간 1명 + AI 시스템' 조합을 제안하고, 의견 불일치 시 중재(Arbitration) 패널이 개입하는 구조를 평가했습니다. * **실제 인간-AI 상호작용 분석:** 22명의 판독자가 참여하여 수천 건의 사례를 중재하는 과정을 통해, AI의 출력이 인간의 최종 의사결정에 미치는 영향과 실제 운영 규칙 준수 여부를 연구했습니다. * **의료 인력 부족 문제 해결:** 2028년까지 예상되는 영상의학 전문의 부족 현상(약 40%)에 대비하여, AI가 판독 품질을 유지하면서도 의료진의 업무 과중을 해결할 핵심 도구가 될 수 있음을 보여주었습니다. 이 연구는 AI가 실제 임상 환경에서 효과적인 '제2 판독자' 역할을 수행할 수 있음을 강력하게 뒷받침합니다. 다만, 실무 도입 시에는 지역별 환자 군과 워크플로우 특성에 맞춘 정밀한 캘리브레이션과 단계적인 검증 과정을 거치는 것이 중요하며, 이를 통해 의료 시스템의 지속 가능성을 확보할 수 있을 것으로 권고됩니다.

google

초전도 연구 질문에 대한 LLM 테스트 (새 탭에서 열림)

현대 물리학의 난제인 고온 초전도체 연구에서 대규모 언어 모델(LLM)이 전문가 수준의 파트너가 될 수 있는지를 검증한 결과, 선별된 고품질 자료를 기반으로 한 모델이 일반 범용 모델보다 압도적으로 우수한 성능을 보였습니다. 구글 리서치와 코넬 대학교 연구팀은 6개의 LLM을 대상으로 전문 지식을 묻는 67개의 질문을 던져 답변의 정확성과 신뢰성을 평가했으며, 이를 통해 특정 학문 분야에 특화된 데이터 큐레이션의 중요성을 입증했습니다. 결과적으로 NotebookLM과 맞춤형 RAG 시스템이 증거 제시와 균형 잡힌 시각 측면에서 가장 높은 점수를 받으며 전문 과학 연구를 돕는 도구로서의 가능성을 보여주었습니다. **연구 배경 및 고온 초전도체 사례 선정** * 고온 초전도체(구프레이트 화합물)는 영하 140도 이상의 온도에서 전기 저항이 0이 되는 현상으로, 1987년 노벨상 수상 이후에도 여전히 메커니즘 규명이 진행 중인 복잡한 분야입니다. * 수십 년간 축적된 방대한 논문과 서로 대립하는 다양한 이론들로 인해, 신규 연구자가 지식의 전체상을 파악하고 중립적인 관점을 유지하기가 매우 어렵습니다. * 이번 연구는 LLM이 이러한 전문 분야에서 편향되지 않은 지식을 제공하고, 가설 설정을 돕는 '연구 파트너'로서 기능할 수 있는지 확인하기 위해 설계되었습니다. **평가 설계 및 실험 방법론** * 평가 대상은 웹 접근이 가능한 범용 모델 4종(GPT-4o, Perplexity, Claude 3.5, Gemini Advanced Pro 1.5)과 엄선된 자료만 사용하는 폐쇄형 시스템 2종(NotebookLM, 맞춤형 RAG)으로 구성되었습니다. * 폐쇄형 시스템 구축을 위해 초전도체 전문가 12명이 선정한 15개의 핵심 리뷰 논문과 이들이 인용한 약 1,726개의 실험 및 이론 논문을 데이터 소스로 활용했습니다. * 전문가 패널은 "LSCO의 어느 도핑 수준에서 립시츠 전이가 발생하는가?"와 같이 고도의 전문성을 요구하는 67개의 질문을 작성하여 각 모델의 답변을 블라인드 테스트로 평가했습니다. **주요 결과 및 모델별 성능 평가** * 6가지 평가지표(균형 잡힌 시각, 포괄성, 간결성, 증거 토대, 시각적 관련성, 정성적 피드백)에서 구글의 NotebookLM이 가장 뛰어난 성과를 거두었으며, 맞춤형 RAG 시스템이 그 뒤를 이었습니다. * 특히 NotebookLM은 문헌 근거를 제시하는 '증거 토대' 항목에서 가장 높은 점수를 받았으며, 이는 전문가가 검증한 신뢰할 수 있는 소스 내부에서 답을 찾도록 제한한 것이 주효했음을 보여줍니다. * Gemini Advanced Pro 1.5와 NotebookLM은 여러 대립하는 이론적 관점을 골고루 다루는 '균형 잡힌 시각' 항목에서 우수한 점수를 기록하여 과학적 중립성을 잘 유지했습니다. 이번 사례 연구는 범용적인 웹 검색 기반 AI보다 신뢰할 수 있는 학술 출처를 사전에 큐레이션한 '폐쇄형 데이터 시스템'이 전문 과학 연구에서 훨씬 유용하다는 사실을 시사합니다. 향후 과학적 발견을 가속화하기 위해서는 모델 자체의 성능 개선뿐만 아니라, 검증된 데이터셋을 효과적으로 활용하는 검색 증강 생성(RAG) 기술의 고도화가 필수적입니다. 연구자들은 AI를 단순한 정보 검색 도구를 넘어, 복잡한 이론적 쟁점을 정리하고 논리적 허점을 찾아주는 비판적 사고의 동료로 활용할 수 있을 것입니다.

google

Groundsource 소개: Gemini를 활용해 뉴스 보도를 데이터로 전환하기 (새 탭에서 열림)

Google Research가 공개한 'Groundsource'는 비정형 뉴스 데이터를 고품질의 정형 데이터로 변환하는 AI 기반 프레임워크입니다. 이 기술은 Gemini를 활용해 전 세계 150개국 이상의 뉴스에서 260만 건의 돌발 홍수 기록을 추출했으며, 이를 통해 데이터가 부족했던 기후 과학 분야에 전례 없는 규모의 역사적 베이스라인을 제공합니다. 결과적으로 이 시스템은 돌발 홍수 예보의 정확도를 높여 인명 구조와 도시 계획 등에 실질적인 도움을 줄 수 있는 데이터 생태계를 구축했습니다. **글로벌 재난 데이터의 부족 문제** * 홍수와 같은 수문 기상학적 재난은 지진과 달리 표준화된 관측 인프라가 부족하여 모델 학습을 위한 데이터가 매우 희귀한 '데이터 사막' 현상을 겪고 있습니다. * 기존의 위성 기반 데이터베이스는 구름의 간섭, 위성 재방문 주기 등으로 인해 규모가 크고 오래 지속되는 홍수 위주로만 기록되는 한계가 있었습니다. * UN과 유럽 위원회 등이 운영하는 GDACS 시스템은 약 1만 건의 기록을 보유하고 있으나, 이는 전 지구적 규모의 AI 모델을 훈련하기에는 턱없이 부족한 양입니다. **Gemini를 활용한 Groundsource 파이프라인** * **텍스트 추출 및 표준화:** 80개 언어로 작성된 뉴스 기사와 정부 보고서에서 텍스트를 추출한 뒤, Cloud Translation API를 통해 영어로 표준화합니다. * **Gemini 기반 정밀 분석:** 고도화된 프롬프트 엔지니어링을 통해 Gemini가 세 가지 핵심 분석 작업을 수행합니다. * **분류:** 단순한 홍수 주의보나 정책 기사가 아닌, 실제 발생 중이거나 발생했던 홍수 사건만을 정확히 구별합니다. * **시간 추론:** 기사 발행일을 기준으로 '지난 화요일'과 같은 상대적 시점 표기를 구체적인 날짜와 시간으로 변환합니다. * **공간 정밀도:** 기사 속의 동네나 거리 이름을 식별하고, Google Maps Platform을 사용해 이를 표준화된 공간 폴리곤(Polygon) 데이터로 매핑합니다. **데이터의 신뢰도와 확장성 검증** * 수동 검토 결과, 추출된 이벤트의 60%가 위치와 시간 측면에서 완벽하게 정확했으며, 82%는 실무 분석에 유효한 수준(특정 행정 구역 및 발생 당일 일치)의 정확도를 보였습니다. * Groundsource는 기존 GDACS에 기록된 주요 홍수 사건의 85~100%를 포착하는 동시에, 기존 시스템이 놓쳤던 국지적이고 소규모인 홍수 사건까지 방대하게 수집했습니다. * 전 세계 260만 건의 홍수 데이터는 기존 감시 시스템 대비 데이터 밀도를 수백 배 이상 높인 성과입니다. **미래 예측 기술로의 응용** * 구축된 구조화 데이터를 통해 이제 도시 돌발 홍수를 발생 최대 24시간 전에 예보할 수 있게 되었으며, 이는 현재 Google의 'Flood Hub' 서비스에 통합되어 제공되고 있습니다. * 이 프레임워크는 뉴스라는 '비정형 기억'을 체계적인 과학적 베이스라인으로 변환할 수 있음을 증명했으며, 향후 가뭄, 산사태, 산사태 등 데이터가 부족한 다른 자연재해 분야로도 확장될 예정입니다. 이처럼 LLM을 활용해 흩어진 뉴스 정보를 정교한 데이터셋으로 구축하는 방식은 데이터 부족 문제를 겪는 기후 및 환경 연구자들에게 매우 강력한 도구가 될 수 있습니다. 단순한 기록 보관을 넘어 실시간 예보 시스템과 연동할 때 기술의 사회적 가치가 극대화될 것입니다.

google

AI 기반 돌발 홍수 예측을 통한 도시 보호 (새 탭에서 열림)

구글 리서치는 뉴스 데이터를 기반으로 한 새로운 AI 학습 모델을 개발하여 전 세계 도시 지역의 돌발 홍수(flash flood)를 최대 24시간 전에 예측할 수 있는 기술을 공개했습니다. 기존의 하천 홍수 예측과 달리 관측 장비가 부족한 지역에서도 정확한 경보를 제공할 수 있어, 전 지구적인 기상 재해 대응 격차를 줄이는 데 결정적인 역할을 할 것으로 기대됩니다. 이번 확장은 전 세계 20억 명 이상을 보호하려는 구글 홍수 예측 이니셔티브의 중요한 진전입니다. **데이터 공백과 돌발 홍수 예측의 한계** * 돌발 홍수는 전 세계 홍수 관련 사망자의 약 85%를 차지하며, 집중 호우 후 6시간 이내에 발생하여 대응이 매우 어렵습니다. * 하천 홍수는 수위계를 통한 '지상 관측 데이터(ground truth)'가 존재하지만, 돌발 홍수는 관측 장비가 없는 곳에서 급격히 발생하여 학습용 데이터를 확보하기 어렵습니다. * 특히 개발도상국이 집중된 글로벌 사우스(Global South) 지역은 고가의 물리 센서나 고해상도 수문 지도가 부족해 기존 예측 시스템의 혜택을 받지 못하는 '경보 격차'가 존재해 왔습니다. **비정형 데이터를 활용한 'Groundsource' 방법론** * 구글은 과거 돌발 홍수 사건의 시점과 위치를 파악하기 위해 공개된 뉴스 기사를 분석하는 'Groundsource' AI 기술을 도입했습니다. * 대규모 언어 모델인 제미나이(Gemini)를 활용하여 비정형 뉴스 데이터에서 홍수 발생 정보를 정밀하게 추출하고, 이를 기반으로 과거 홍수 사건 데이터셋을 구축했습니다. * 이 데이터셋을 통해 물리적 센서가 없는 지역에서도 AI 모델이 홍수의 패턴을 학습하고 예측할 수 있는 기초를 마련했습니다. **글로벌 스케일링을 위한 모델 구조 및 입력 데이터** * 시계열 데이터 처리에 최적화된 **LSTM(Long Short-Term Memory)** 유닛 기반의 **순환 신경망(RNN)** 아키텍처를 사용합니다. * 기상 예측 데이터뿐만 아니라 도시화 밀도, 지형, 토양 흡수율과 같은 정적인 지리적·인류학적 속성을 모델에 통합했습니다. * 특정 지역의 고비용 센서 대신 NASA, NOAA의 위성 데이터와 구글 딥마인드의 AI 기상 예측 모델(GraphCast) 등 전 지구적으로 사용 가능한 데이터만을 활용하여 확장성을 확보했습니다. * 현재 20x20km 공간 해상도로 작동하며, 뉴스 데이터가 풍부하고 인구 밀도가 높은 도시 지역(100명/km² 이상)을 우선적으로 지원합니다. **성능 평가 및 지리적 평등성 실현** * 모델 평가 결과, 뉴스 기반 학습 모델은 장비가 부족한 남미나 동남아시아 지역에서도 선진국 수준의 예측 정확도(정밀도 및 재현율)를 기록했습니다. * 실제 홍수가 뉴스에 보도되지 않아 오탐으로 분류된 사례를 수동 검수하여 모델의 실질적인 신뢰도가 지표보다 더 높음을 확인했습니다. * 이번 기술 도입을 통해 선진국과 개발도상국 사이의 재난 정보 불균형을 해소하고, 전 세계 어디서나 돌발 홍수에 대비할 수 있는 기반이 마련되었습니다. **실용적 의의** 돌발 홍수 경보가 12시간만 앞서 제공되어도 피해를 60%까지 줄일 수 있다는 점을 고려할 때, 구글의 24시간 예측 시스템은 인명과 재산을 보호하는 강력한 도구가 될 것입니다. 사용자는 구글의 'Flood Hub'를 통해 이러한 실시간 예측 정보를 확인할 수 있으며, 이는 기후 변화에 따른 극한 기상 현상에 대한 커뮤니티의 복원력을 크게 향상시킬 것입니다.

google

실제 임상 연구에서의 대화형 진단 AI 실현 가능성 탐색 (새 탭에서 열림)

구글 리서치와 구글 딥마인드는 대화형 의료 AI인 'AMIE(Articulate Medical Intelligence Explorer)'를 실제 임상 환경에 적용한 첫 번째 타당성 조사 결과를 발표했습니다. 하버드 의대 부속 병원(BIDMC)과의 협력을 통해 진행된 이번 연구는 AMIE가 환자의 내원 전 병력 청취를 안전하게 수행하고 전문의 수준의 진단 추론 능력을 보여줄 수 있음을 입증했습니다. 이는 시뮬레이션을 넘어 실제 의료 현장에 AI를 통합할 수 있다는 가능성을 보여준 중요한 이정표로 평가됩니다. ### 실제 임상 워크플로우에서의 AMIE 검증 * **연구 설계:** 비응급 질환으로 1차 진료를 예약한 100명의 성인 환자를 대상으로 진행된 전향적, 단일 기관 타당성 조사입니다. * **상호작용 방식:** 환자는 실제 진료 전 보안 웹링크를 통해 AMIE와 텍스트로 대화하며 증상을 설명했습니다. * **안전 감독 시스템:** 'AI 감독관'으로 명명된 의사가 실시간 화상 공유를 통해 대화 내용을 모니터링하며, 사전에 정의된 안전 기준(자해 위험, 정서적 고통 등) 발생 시 즉시 개입할 수 있도록 배치되었습니다. * **의료진 지원:** 대화가 종료되면 AMIE는 전체 대화 녹취록과 요약본을 생성하여 담당 의사가 실제 진료를 시작하기 전에 환자의 상태를 종합적으로 파악할 수 있도록 도왔습니다. ### 안전성 및 환자 경험 결과 * **제로 세이프티 스톱:** 연구 기간 동안 AI 감독관이 개입하여 대화를 중단해야 했던 '안전 정지' 사례는 단 한 건도 발생하지 않아 대화형 안전성을 확인했습니다. * **환자 신뢰도 향상:** AMIE와 상호작용한 후 AI에 대한 환자들의 신뢰도가 상승했으며, 다양한 연령과 인종, 기술 문해력을 가진 그룹에서 전반적으로 긍정적인 평가를 받았습니다. * **현실적 수용성:** 환자들은 AI와의 대화가 쉽고 유용하다고 느꼈으며, 이는 AI가 실제 진료 보조 도구로서 충분히 기능할 수 있음을 시사합니다. ### 임상적 추론 및 진단 역량 비교 * **진단 정확도(DDx):** 숙련된 전문의 평가단이 블라인드 테스트를 진행한 결과, AMIE의 차등 진단(Differential Diagnosis) 품질은 실제 1차 진료 의사(PCP)와 대등한 수준으로 나타났습니다. * **관리 계획(Mx Plan):** 전반적인 치료 및 관리 계획의 품질과 안전성 측면에서도 AMIE는 의사와 비슷한 평가를 받았습니다. * **한계와 차이점:** 다만, 관리 계획의 '실용성'과 '비용 효율성' 측면에서는 실제 임상 환경의 제약 조건을 더 잘 이해하고 있는 의사들이 AI보다 더 높은 점수를 받았습니다. 이번 연구는 대화형 AI가 의료진의 업무 부담을 줄이고 환자 정보를 효율적으로 수집하는 조력자가 될 수 있음을 보여줍니다. 향후 AI가 실제 의료 현장에 안착하기 위해서는 진단 논리뿐만 아니라 의료 경제적 실용성까지 고려한 모델 고도화가 필요할 것으로 보입니다.

google

야생동물이 거니는 곳 (새 탭에서 열림)

구글 리서치가 개발하여 오픈소스로 공개한 SpeciesNet은 카메라 트랩(무인 카메라)에 포착된 야생동물을 AI로 자동 식별하는 혁신적인 도구입니다. 약 2,500종의 동물을 분류할 수 있는 이 모델은 전 세계 보존 파트너들이 제공한 650만 개의 라벨링된 이미지를 통해 학습되었으며, 연구자들이 수년이 걸릴 방대한 양의 데이터를 단 며칠 만에 분석할 수 있게 해줍니다. 현재 이 도구는 생태계 모니터링 속도를 획기적으로 높이고 멸종 위기종 보호를 위한 실시간 의사결정을 지원하며 전 세계 환경 보호 활동의 필수적인 자산으로 자리 잡았습니다. **카메라 트랩 기반의 자동화된 야생동물 모니터링** - 열이나 움직임에 의해 작동하는 카메라 트랩은 수천에서 수백만 장의 이미지를 생성하며, 이를 수동으로 분류하는 데는 막대한 시간과 인력이 소모됩니다. - SpeciesNet은 딥러닝 기술을 활용하여 이미지 내 동물의 종을 자동 식별함으로써 연구 데이터 분석 효율성을 극대화합니다. - 동물의 개체 수 건강 상태 파악, 기후 변화에 따른 이동 경로 추적, 멸종 위기종의 서식지 확인 등 근거 중심의 보존 조치를 가능하게 합니다. **SpeciesNet의 기술적 사양과 성능** - **모델 협업:** 이미지 내에서 동물이 포함된 픽셀을 먼저 찾아내는 'MegaDetector' 모델과 연동되어 작동하며, 종 이름과 함께 신뢰도(Confidence level)를 출력합니다. - **처리 능력:** 일반 노트북에서는 하루 약 3만 장, 보급형 게이밍 GPU 환경에서는 하루 25만 장 이상의 이미지를 처리할 수 있는 높은 효율성을 자랑합니다. - **학습 데이터:** CNN(합성곱 신경망) 구조를 기반으로 하며, 'Wildlife Insights' 플랫폼의 6,500만 장 이상의 검증된 이미지 데이터를 학습하여 조도나 촬영 각도가 불리한 환경에서도 높은 성능을 발휘합니다. - **정확도:** 테스트 데이터셋 기준 동물이 포함된 이미지를 찾아내는 비율은 99.4%이며, 종 수준까지 분류하는 비율은 83%, 그중 예측 정확도는 94.5%에 달합니다. **전 세계 연구 현장의 적용 사례** - **탄자니아 세렝게티:** 2010년부터 축적된 1,100만 장의 이미지를 현장에서 단 며칠 만에 분석하여, 동물의 출현 패턴에 따라 카메라를 실시간으로 재배치하는 등 유연한 연구를 지원합니다. - **호주(WildObs):** 오픈소스 특성을 활용해 호주 특유의 종인 사향쥐캥거루 등을 식별할 수 있도록 모델을 지역 맞춤형으로 재학습시켜 사용하고 있습니다. - **미국 아이다호:** 주 정부 야생동물국(IDFG)의 업무 흐름에 SpeciesNet을 통합하여 곰, 사슴, 엘크 등 산림 지역 동물의 모니터링 속도를 높이고 인간의 검증 단계를 대폭 단축했습니다. - **플랫폼 확장성:** Animl(웹 플랫폼), AddaxAI(데스크톱 도구) 등 다양한 공공 및 민간 플랫폼에 통합되어 생태학자들이 자신의 컴퓨터에서 직접 AI 모델을 실행할 수 있는 환경을 제공합니다. SpeciesNet은 구글 어스 AI(Google Earth AI) 프로젝트의 일환으로, 대규모 환경 데이터와 실행 가능한 보존 통찰력 사이의 간극을 메우고 있습니다. 방대한 이미지 데이터를 처리해야 하는 연구 기관이나 개인 활동가는 Wildlife Insights 클라우드 플랫폼을 활용하거나 SpeciesNet 오픈소스를 직접 다운로드하여 로컬 워크플로우에 통합함으로써, 단순 반복 작업인 라벨링 시간을 줄이고 본연의 생태 분석 및 보호 활동에 집중할 것을 권장합니다.

google

WAXAL: 아프 (새 탭에서 열림)

구글 리서치가 공개한 WAXAL(West African Languages)은 사하라 이남 아프리카 27개 언어를 지원하는 대규모 오픈소스 음성 데이터셋으로, 기술 소외 지역의 디지털 격차를 해소하기 위해 구축되었습니다. 약 1,846시간의 음성 인식(ASR) 데이터와 565시간의 고음질 음성 합성(TTS) 데이터를 포함하며, 누구나 자유롭게 활용할 수 있는 CC-BY-4.0 라이선스로 제공됩니다. 이 프로젝트는 아프리카 현지 학계 및 커뮤니티와의 긴밀한 협업을 통해 대화형 AI 시스템 구축에 필요한 언어적 다양성과 실제 구어체의 특성을 정밀하게 반영했습니다. **WAXAL 데이터셋의 기술적 구성** * **WAXAL-ASR (자연스러운 구어 이해):** 약 1,846시간 분량의 전사된 오디오로 구성되며, 대본을 읽는 방식이 아닌 50개 이상의 시각적 자극(이미지)을 보고 자신의 언어로 설명하는 방식을 채택했습니다. 이를 통해 성조의 미묘한 차이나 코드 스위칭(여러 언어를 섞어 쓰는 현상)과 같은 실제 대화의 특징을 효과적으로 포착했습니다. * **WAXAL-TTS (고충실도 음성 생성):** 자연스러운 합성 음성 제작을 위해 565시간 이상의 고품질 오디오를 포함합니다. 음성학적 균형을 맞춘 대본을 바탕으로 녹음되었으며, 전문적인 음향 품질을 확보하기 위해 현지 참여자들이 직접 맞춤형 스튜디오 박스를 제작하여 녹음을 진행했습니다. * **풀듀플렉스(Full-duplex) 시스템 지향:** 비정형화된 ASR 데이터와 정제된 TTS 데이터를 동시에 제공함으로써, 실제 환경에서 자연스럽게 주고받는 양방향 대화형 AI 모델링이 가능하도록 설계되었습니다. **지역 생태계 중심의 협력 모델** * **현지 주도 데이터 수집:** 마케레레 대학교, 가나 대학교 등 아프리카 현지 교육 기관 및 커뮤니티가 수집 과정을 주도하고 구글의 데이터 수집 전문가들이 기술적 가이드를 제공하는 방식으로 진행되었습니다. * **데이터 소유권 및 개방성:** 수집된 데이터의 소유권은 파트너 기관이 유지하되, 전체 커뮤니티의 발전을 위해 데이터를 공개한다는 원칙 아래 협력 관계를 구축했습니다. * **인프라 구축 지원:** 프로젝트 자금을 통해 현지에 녹음 스튜디오 인프라를 구축하고, 기술 교육을 병행하여 향후 지속 가능한 데이터 수집 역량을 강화했습니다. **연구 성과 및 실제 활용 사례** * **포용적 기술 연구:** 가나의 아칸(Akan)어 사용자 중 뇌성마비나 말을 더듬는 장애를 가진 이들을 위한 최초의 오픈소스 데이터셋 구축에 기여하였으며, 텍스트보다 이미지 프롬프트 방식이 취약 계층의 음성 수집에 더 효과적임을 입증했습니다. * **모델 성능 벤치마킹:** Whisper, XLS-R, MMS, W2v-BERT 등 최신 음성 모델 4종을 13개 아프리카 언어에 대해 테스트하여, 데이터 증량에 따른 성능 확장성이 언어적 복잡도와 도메인 일치도에 따라 어떻게 달라지는지 분석했습니다. * **언어적 특성 반영 평가:** 111개 아프리카 언어에 대한 74개 데이터셋을 체계적으로 검토하고, 형태학적으로 풍부하고 성조가 있는 언어의 특성을 정확히 평가하기 위해 CER(Character Error Rate)과 같은 지표 도입의 필요성을 제시했습니다. WAXAL은 단순한 데이터 제공을 넘어 아프리카 인공지능 생태계가 자립할 수 있는 토대를 마련했다는 점에서 큰 의미가 있습니다. 개발자와 연구자들은 이 공개된 자원을 활용하여 아프리카 고유의 언어적 특성이 반영된 혁신적인 음성 서비스를 개발하고, 디지털 환경에서 소외되었던 수억 명의 사용자들에게 기술의 혜택을 전달할 수 있을 것으로 기대됩니다.

google

LLM에게 베이지안처럼 추 (새 탭에서 열림)

거대언어모델(LLM)이 사용자와 상호작용하며 최적으로 추론하도록 하기 위해, 베이즈 정리(Bayes' rule)를 따르는 모델의 예측 과정을 모방하도록 학습시키는 '베이지안 티칭(Bayesian teaching)' 프레임워크가 제안되었습니다. 기존 LLM은 새로운 정보가 주어져도 확률적 추론에 한계를 보이며 성능이 정체되는 경향이 있었으나, 최적의 베이지안 모델을 파인튜닝 지표로 삼음으로써 불확실성을 관리하고 신념을 업데이트하는 능력을 크게 개선했습니다. 연구 결과, 이 방식은 특정 작업의 성능을 높일 뿐만 아니라 학습하지 않은 새로운 도메인으로의 일반화 가능성까지 입증하며 LLM의 근본적인 추론 기술 향상 가능성을 보여주었습니다. **LLM의 확률적 추론 능력 평가** * **항공편 추천 시뮬레이션:** 출발 시간, 소요 시간, 경유 횟수, 비용 등 다양한 선호도를 가진 가상 사용자와 5단계에 걸쳐 상호작용하며 최적의 항공편을 추천하는 과제를 수행했습니다. * **베이지안 어시스턴트와 비교:** 최적의 베이지안 전략을 따르는 모델을 기준점으로 삼아, LLM이 새로운 정보에 따라 사용자 선호도 추정치를 얼마나 잘 업데이트하는지 측정했습니다. * **성능 정체 현상 발견:** 일반적인 LLM은 첫 번째 상호작용 이후 성능이 정체되는 반면, 베이지안 모델은 정보가 쌓일수록 정확도가 지속적으로 향상되는 격차를 보였습니다. 이는 LLM이 새로운 정보를 통합하여 내부 표현을 수정하는 데 취약함을 의미합니다. **베이지안 티칭 프레임워크의 구조** * **사전 신념과 사후 신념의 순환:** 모델이 가진 기존 지식(Prior)을 새로운 증거(Evidence)와 결합하여 업데이트된 지식(Posterior)으로 전환하는 과정을 지도 학습(Supervised Fine-tuning)으로 구현했습니다. * **오라클 티칭(Oracle Teaching):** 사용자의 실제 정답(완벽한 선호도 정보)만을 학습 데이터로 제공하는 방식으로, 모델이 항상 정답만을 맞히도록 유도합니다. * **베이지안 티칭(Bayesian Teaching):** 베이지안 어시스턴트가 정보가 부족한 상황에서 내린 '확률적인 최선의 추측' 과정을 모방하게 하는 일종의 증류(Distillation) 기법입니다. * **불확실성 학습:** 베이지안 티칭은 모델에게 정답뿐만 아니라, 정보가 불충분할 때 가질 수 있는 불확실성을 유지하고 논리적으로 추론하는 법을 가르칩니다. **학습 결과 및 추론 기술의 일반화** * **추론 정확도 역전:** 베이지안 티칭을 거친 LLM은 정답 데이터만을 학습한 오라클 티칭 모델보다 실제 사용자 선택을 예측하는 데 더 높은 성과를 거두었습니다. * **베이지안 모델과의 높은 일치도:** 파인튜닝된 LLM은 정보 업데이트 방식에서 베이지안 모델과 유사한 패턴을 보였으며, 이는 모델이 단순 암기가 아닌 확률적 사고방식을 체득했음을 보여줍니다. * **도메인 확장성:** 훈련에 사용되지 않은 다른 유형의 작업에서도 베이지안 추론 방식을 적용하는 능력이 향상되었습니다. 이는 LLM이 예시를 통해 일반적인 추론 기술을 학습하고 이를 새로운 영역으로 전이할 수 있음을 시사합니다. LLM을 단순한 챗봇을 넘어 지능형 에이전트로 활용하기 위해서는 단순히 정답(Ground Truth)만을 학습시키기보다, 베이지안 모델과 같은 최적의 사고 과정을 데이터화하여 학습시키는 전략이 유효할 것으로 보입니다. 이는 특히 사용자 개인화가 중요한 추천 시스템이나 복잡한 의사결정 지원 시스템 구축에 실용적인 해결책이 될 수 있습니다.

google

AI에게 지도 읽는 법 가 (새 탭에서 열림)

구글 연구진은 멀티모달 거대언어모델(MLLM)이 지도의 기하학적 구조를 이해하고 경로를 추적할 수 있도록 돕는 합성 데이터 생성 파이프라인인 'MapTrace'를 제안했습니다. 기존 모델들이 이미지 내 객체 인식에는 능숙하지만 벽과 길을 구분하는 정밀한 공간 추론에는 한계를 보인다는 점에 착안하여, 200만 개의 데이터 쌍을 자동으로 생성해 학습시키는 방법론을 정립했습니다. 연구 결과, 이러한 합성 데이터를 통한 미세 조정(Fine-tuning)만으로도 모델의 공간 추론 능력을 비약적으로 향상시킬 수 있음이 증명되었습니다. **공간 추론 능력 결여와 데이터 확보의 어려움** * 기존 MLLM은 물리적 세계에 대한 '접지(Grounding)'가 부족하여 지도의 선을 벽으로 인식하지 못하고 통과하는 등 물리적 제약을 무시하는 경향이 있습니다. * 이를 해결하기 위한 정밀한 경로 데이터는 수동으로 구축하기에 비용이 지나치게 비싸고, 쇼핑몰이나 테마파크 같은 복잡한 지도는 대개 저작권 문제로 수집이 어렵습니다. * 결과적으로 모델은 지도를 구조화된 공간이 아닌 단순한 픽셀의 집합으로만 인식하게 되는 '데이터 병목 현상'을 겪게 됩니다. **MapTrace: 4단계 합성 데이터 생성 파이프라인** * **다양한 지도 생성:** LLM이 동물원, 쇼핑몰 등 다양한 장소에 대한 묘사를 생성하면, 이를 이미지 생성 모델(Imagen-4 등)에 입력하여 복잡한 지도 이미지를 얻습니다. * **이동 가능 영역 식별(Mask Critic):** 색상 기반 클러스터링으로 통행 가능한 경로 마스크를 추출한 뒤, MLLM '마스크 비평가'가 실제 사람이 다닐 수 있는 길인지 품질을 검증합니다. * **내비게이션 그래프 구축:** 검증된 2D 마스크를 노드(교차로)와 엣지(길)로 구성된 디지털 그래프 형태로 변환하여 계산 가능한 네트워크를 만듭니다. * **최적 경로 생성 및 검증(Path Critic):** 다익스트라(Dijkstra) 알고리즘으로 최단 경로를 계산한 후, 최종적으로 '경로 비평가' MLLM이 해당 경로가 논리적이고 인간의 이동 양식에 부합하는지 최종 승인합니다. **성능 검증 및 기술적 성과** * 연구진은 생성된 200만 개의 Q&A 쌍 중 일부(23,000개)만으로 Gemma 3 27B 및 Gemini 2.5 Flash 모델을 학습시켰으며, 실제 지도 데이터셋인 MapBench에서 성능 향상을 확인했습니다. * 성능 측정에는 두 좌표 시퀀스 사이의 거리를 비교하는 NDTW(Normalized Dynamic Time Warping) 지표를 활용하여 경로의 정확도를 정밀하게 평가했습니다. * 이미지 생성 과정에서 텍스트 렌더링 오류가 간혹 발생하지만, 경로 추적의 정확성 측면에서는 합성 데이터만으로도 충분한 학습 효과를 거둘 수 있음을 시사합니다. **실용적 제언** AI 모델에 물리적 공간에 대한 상식을 부여하고 싶다면 대규모 수동 레이블링 대신 '비평가(Critic)' 모델이 포함된 자동화된 합성 데이터 파이프라인을 구축하는 것이 비용 효율적입니다. 특히 복잡한 제약 조건이 있는 도메인일수록 모델의 크기를 키우는 것보다 특정 태스크에 맞춤화된 '공간 문법'을 데이터로 가르치는 것이 더 효과적입니다.

google

변화하는 세상에서의 스케 (새 탭에서 열림)

클라우드 인프라의 가용 자원이 끊임없이 변동하는 환경에서 중단 없이 실행되어야 하는 비선점형(Non-preemptive) 작업들을 효율적으로 배치하기 위한 새로운 알고리즘이 제시되었습니다. Google Research는 이번 연구를 통해 가용량이 시간에 따라 변하는 환경에서도 작업 처리량(Throughput)을 최대로 확보할 수 있는 최초의 상수 요인(Constant-factor) 근사 알고리즘을 개발했습니다. 이 알고리즘은 변동성이 큰 클라우드 환경에서 작업 손실을 최소화하고 스케줄러의 안정성을 이론적으로 보장하는 기틀을 마련했습니다. ### 동적 클라우드 환경과 스케줄링의 난제 * 현대 클라우드 환경은 하드웨어 장애, 유지보수, 고순위 작업의 자원 점유 등으로 인해 가용 자원이 실시간으로 변동하는 특성을 가집니다. * 특히 비선점형 작업은 한 번 시작하면 중간에 멈출 수 없으며, 자원 부족으로 중단될 경우 지금까지의 모든 작업 진행 내용이 소실되는 리스크가 있습니다. * 스케줄러는 각 작업의 방출 시간(Release time), 마감 기한(Deadline), 처리 시간, 가중치를 고려하여 전체 처리량의 합계(가중치 또는 작업 수)를 극대화해야 합니다. ### 오프라인 설정에서의 최적화 전략 * 미래의 작업 도착 정보와 자원 변동 추이를 미리 알고 있는 오프라인 환경에서는 단순한 그리디(Greedy) 전략이 효과적임이 입증되었습니다. * 가장 먼저 끝나는 작업을 우선 배치하는 그리디 알고리즘은 동일 가치 작업들을 스케줄링할 때 최적해의 최소 1/2 성능을 보장(1/2-approximation)합니다. * 작업마다 가치가 다른 가중치 모델의 경우, Primal-dual 프레임워크를 활용하여 최적해의 1/4 성능을 보장하는 알고리즘을 구현했습니다. ### 온라인 환경의 복잡성과 중단 모델 * 실시간으로 작업이 도착하는 온라인 환경에서는 단 하나의 잘못된 결정(긴 작업 배치)이 미래의 수많은 짧은 작업을 막을 수 있어 기존 방식의 효율성이 급격히 떨어집니다. * **재시작 허용 모델(Interruption with restarts):** 작업 중단 시 진행 데이터는 소실되지만 나중에 다시 시도할 수 있는 모델로, 오프라인과 동일하게 1/2 수준의 경쟁비(Competitive ratio)를 달성할 수 있습니다. * **재시작 불가 모델(Interruption without restarts):** 중단된 작업을 영구히 폐기해야 하는 엄격한 모델로, 일반적인 상황에서는 효율적인 스케줄링이 어렵지만 '공통 마감일'이 있는 실무적 시나리오에서는 해결책을 찾았습니다. ### 공통 마감일 시나리오를 위한 상수 경쟁 알고리즘 * 모든 작업이 동일한 마감 시한을 가지는 실제 배치 작업 환경을 위해 최초의 상수 경쟁 알고리즘(1/11 경쟁비)을 설계했습니다. * 이 알고리즘은 새로운 작업이 도착할 때마다 다음 네 가지 우선순위에 따라 잠정적 스케줄을 갱신합니다. 1. 빈 시간대에 작업 추가. 2. 기존에 예약된 미래 작업보다 현저히 작은 작업으로 교체. 3. 현재 실행 중인 작업의 남은 시간보다 도착한 작업이 더 짧을 경우 실행 중인 작업 중단 및 교체. 4. 위 조건에 해당하지 않을 경우 새 작업 폐기. 이 연구 결과는 자원 공급이 불규칙한 클라우드 시스템에서 이론적 보장을 갖춘 견고한 스케줄러를 구축할 수 있는 근거를 제공하며, 특히 저순위 배치 작업의 효율성을 극대화하는 데 실질적인 도움을 줄 수 있습니다.

google

Draft 1: 일대일을 (새 탭에서 열림)

DialogLab은 기존의 1:1 대화 모델을 넘어 복잡한 다자간 대화 시뮬레이션을 가능하게 하는 오픈소스 연구 프로토타입입니다. 이 프레임워크는 구조화된 스크립트의 예측 가능성과 생성형 AI의 즉흥성을 결합하여, 사용자가 사회적 역학 관계를 정의하고 동적인 대화 흐름을 설계 및 테스트할 수 있도록 지원합니다. 이를 통해 개발자와 디자이너는 실제 인간의 대화와 유사한 복잡한 그룹 상호작용을 효율적으로 구현하고 검증할 수 있습니다. ### 사회적 구조와 대화 흐름의 분리 DialogLab의 핵심은 대화의 '사회적 설정'과 '시간적 흐름'을 독립적인 차원으로 분리하여 관리하는 데 있습니다. * **그룹 역학(Group Dynamics):** 대화의 사회적 구조를 정의합니다. 전체 컨테이너인 '그룹', 특정 역할을 가진 하위 그룹인 '파티(Parties)', 그리고 개별 참여자나 공유 콘텐츠인 '엘리먼트(Elements)'로 구성됩니다. * **대화 흐름 역학(Conversation Flow Dynamics):** 대화가 시간에 따라 전개되는 방식을 정의합니다. 대화의 단계를 '스니펫(Snippets)'으로 나누어 각 단계별 참여자, 대화 순서, 상호작용 스타일(협력적 혹은 논쟁적 등)을 설정할 수 있습니다. * **세밀한 규칙 설정:** 단순한 대화를 넘어 끼어들기(Interruptions)나 백채널링(Backchanneling, 맞장구)과 같은 세밀한 규칙을 추가하여 실제와 유사한 대화 환경을 조성합니다. ### 저작-시뮬레이션-검증의 통합 워크플로우 DialogLab은 시각적 인터페이스를 통해 대화를 설계하고 즉시 테스트하며 분석할 수 있는 효율적인 단계를 제공합니다. * **시각적 저작 도구:** 드래그 앤 드롭 방식의 캔버스를 통해 아바타와 콘텐츠를 배치하고, 인스펙터 패널에서 페르소나와 상호작용 패턴을 세부적으로 설정할 수 있습니다. AI가 대화 프롬프트를 자동 생성하는 기능을 지원하여 설계 속도를 높입니다. * **인간 중심 시뮬레이션(Human-in-the-loop):** 라이브 프리뷰 패널에서 대화 내용을 실시간으로 확인하며, '인간 제어' 모드를 통해 AI가 제안하는 답변을 수정, 수락 또는 거부하며 대화의 방향을 직접 조정할 수 있습니다. * **분석 및 검증 대시보드:** 대화가 끝난 후 타임라인 뷰와 사후 분석 도구를 통해 참여자 간의 발언 분포, 감정의 흐름 등을 시각적으로 분석하여 대화의 품질을 검증합니다. ### 실제 테스트 결과 및 사용자 경험 게임 디자인, 교육, 사회과학 분야의 전문가 14명을 대상으로 실시한 평가에서 DialogLab은 다자간 대화 설계의 유연성을 입증했습니다. * **세 가지 테스트 조건:** 사용자가 직접 AI의 반응을 제어하는 '인간 제어형', 미리 정의된 순서대로 반응하는 '자율형', 직접적인 언급에만 반응하는 '반응형' 모델을 비교했습니다. * **높은 몰입감과 현실성:** 전문가들은 '인간 제어형' 모드에서 가장 높은 몰입감과 현실성을 느꼈다고 평가했으며, 이는 복잡한 사회적 시뮬레이션에서 인간의 개입과 제어 능력이 중요함을 시사합니다. * **효율적인 이터레이션:** 시각적인 드래그 앤 드롭 인터페이스와 자동 생성 프롬프트 덕분에 대화 시나리오를 빠르게 반복 수정하고 테스트하는 과정이 매우 직관적이라는 피드백을 받았습니다. DialogLab은 교육용 시뮬레이션, 게임 캐릭터 간의 상호작용 설계, 혹은 복잡한 사회적 역동성을 연구하는 학술적 목적에 특히 유용합니다. 단순히 AI와 대화하는 것을 넘어, AI가 포함된 그룹 내에서의 인간 관계와 소통 방식을 정교하게 설계하고자 하는 기획자들에게 강력한 도구가 될 것입니다.