foundation-models

11 개의 포스트

현대 세계 매핑하기: S2Vec이 우리 도시의 언어를 학습하는 방법 (새 탭에서 열림)

Google Research가 발표한 S2Vec은 도로, 건물, 인프라와 같은 인위적 환경(Built Environment)의 복잡한 데이터를 범용적인 임베딩으로 변환하는 자기지도 학습(Self-supervised) 프레임워크입니다. 이 모델은 지리 공간 데이터를 컴퓨터 비전 모델이 이해할 수 있는 래스터(Raster) 이미지 형태로 변환하고 마스크 오토인코딩(MAE) 기법을 적용하여, 수동 레이블링 없이도 전 세계의 사회경제적 및 환경적 패턴을 정밀하게 예측합니다. 결과적으로 S2Vec은 미학습 지역에 대한 지리적 적응력에서 뛰어난 성능을 보이며, 위성 이미지 데이터와 결합했을 때 더욱 강력한 지리 공간 지능을 제공합니다. ### 지리 공간 데이터의 래스터화와 S2 기하학 활용 * **데이터 구조화의 어려움 해결:** 도시 블록은 수백 개의 데이터 포인트를 갖는 반면 농촌은 거의 없는 등 데이터의 밀도 편차가 크다는 문제를 해결하기 위해 S2 Geometry 라이브러리를 사용합니다. * **계층적 셀 분할:** 지구 표면을 계층적인 셀로 나누어 국가 단위부터 수 평방미터 단위까지 다양한 해상도로 데이터를 효율적으로 조회하고 관리합니다. * **특징 래스터화(Feature Rasterization):** 각 S2 셀 내의 건물이나 도로 유형을 계산하여 다층 이미지 형태로 재구성합니다. 예를 들어 특정 셀의 커피숍과 공원 수를 이미지의 '색상' 채널처럼 처리함으로써 성숙한 컴퓨터 비전 기술을 지리 데이터 분석에 그대로 적용할 수 있게 합니다. ### 마스크 오토인코딩(MAE)을 통한 자기지도 학습 * **레이블링 병목 현상 제거:** 전 지구적 데이터를 수동으로 태깅하는 것은 불가능하므로, 데이터의 일부를 가리고(Masking) 주변 맥락을 통해 이를 재구성하도록 학습시키는 MAE 기법을 도입했습니다. * **문맥 논리 학습:** 고층 아파트와 지하철역이 있는 곳에는 식료품점이 있을 가능성이 높다는 식의 도시 구성 요소 간 상관관계를 모델 스스로 파악합니다. * **범용 임베딩 생성:** 수백만 번의 학습 과정을 통해 특정 위치의 고유한 특성을 수학적 수치(임베딩)로 압축하며, 이는 별도의 추가 학습 없이도 다양한 분석 작업에 활용될 수 있습니다. ### 사회경제적 예측 성능 및 다중 모달 융합 * **우수한 지리적 적응성(Extrapolation):** 학습 데이터에 포함되지 않은 새로운 지역의 인구 밀도나 가구 소득 중앙값을 예측하는 제로샷(Zero-shot) 과제에서 기존 이미지 기반 모델들보다 뛰어난 성능을 입증했습니다. * **다중 모달 융합(Multimodal Fusion):** S2Vec의 인위적 환경 데이터와 위성 이미지 임베딩(RS-MaMMUT 등)을 결합했을 때 가장 높은 성능을 기록했습니다. * **환경 지표의 한계:** 탄소 배출량 예측에는 효과적이었으나, 수목 피복도(Tree cover)나 고도와 같은 자연 환경 요소 예측에는 건물 수 중심의 데이터만으로는 한계가 있어 위성 이미지와의 결합이 필수적임을 확인했습니다. S2Vec은 지리 공간 AI가 수동으로 제작된 니치 모델에서 벗어나 확장 가능한 파운데이션 모델로 나아가는 중요한 단계입니다. 도시 계획가나 연구자들은 이 임베딩을 활용해 인프라 변화가 지역 사회의 보건이나 경제에 미치는 영향을 전 지구적 규모에서 더욱 정확하게 분석할 수 있을 것으로 기대됩니다. 구체적인 환경 분석이 필요한 경우, S2Vec 단독 사용보다는 위성 이미지 모델과 결합하여 데이터의 상호보완성을 극대화하는 방식을 추천합니다.

AWS Elemental Inference로 모 (새 탭에서 열림)

AWS는 라이브 및 주문형 비디오(VOD)를 모바일 시청 환경에 맞춰 자동으로 변환해주는 풀 매니지드 AI 서비스인 **AWS Elemental Inference**를 출시했습니다. 이 서비스는 기존의 가로형 방송 콘텐츠를 틱톡, 인스타그램 릴스, 유튜브 쇼츠 등에 최적화된 세로형 포맷으로 실시간 변환하며, 수동 편집이나 전문적인 AI 지식 없이도 대규모 시청자에게 도달할 수 있게 돕습니다. 에이전틱 AI를 활용해 지연 시간을 획기적으로 단축함으로써 방송사가 바이럴 순간을 놓치지 않고 모바일 플랫폼에 즉각 대응할 수 있는 환경을 제공하는 것이 핵심입니다. ### 실시간 지능형 크롭 및 포맷 변환 * **스마트 크롭(Smart Crop):** AI가 영상 내 주요 피사체와 액션을 지능적으로 추적하여 16:9 가로 영상을 9:16 세로 포맷으로 자동 변환합니다. * **초저지연 처리:** 기존 수동 포스트 프로덕션 방식이 몇 분 이상 소요되었던 것과 달리, 라이브 비디오와 병렬로 작동하여 6~10초 내외의 낮은 지연 시간으로 최적화를 완료합니다. * **품질 유지:** 방송 수준의 화질을 유지하면서 모바일 시청 환경에 맞춰 콘텐츠 레이아웃을 자율적으로 조정합니다. ### 에이전틱 AI 기반의 자동 클립 생성 * **하이라이트 감지:** 실시간 콘텐츠에서 축구의 골 장면이나 농구의 결정적인 플레이와 같은 주요 순간을 자동으로 감지하고 추출합니다. * **무개입 운영:** 사람이 직접 프롬프트를 입력하거나 개입할 필요 없이 AI가 독립적으로 다단계 변환을 수행하여 가치 있는 클립을 생성합니다. * **효율적인 프로세스:** "한 번의 처리로 어디서든 최적화(Process once, optimize everywhere)"하는 방식을 통해 동일한 비디오 스트림에서 여러 AI 기능을 동시에 실행하여 재처리 비용을 줄입니다. ### 기존 워크플로와의 원활한 통합 * **AWS Elemental MediaLive 연동:** 기존 MediaLive 채널 설정 내에서 탭 하나로 AI 기능을 활성화할 수 있어 아키텍처를 변경할 필요가 없습니다. * **유연한 배포 옵션:** 독립 실행형 콘솔을 통해 피드를 직접 생성하거나, MediaLive API를 통해 기존 워크플로에 프로그래밍 방식으로 통합할 수 있습니다. * **완전 관리형 모델:** AWS가 자동으로 업데이트하고 최적화하는 파운데이션 모델(FM)을 사용하므로 기업 내부에 별도의 AI 전담 팀이 없어도 최신 기술을 활용할 수 있습니다. ### 가용성 및 경제적 비용 구조 * **출시 지역:** 현재 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(아일랜드), 아시아 태평양(뭄바이) 등 4개 리전에서 즉시 사용 가능합니다. * **종량제 가격 정책:** 선결제나 약정 없이 실제 처리된 비디오 분량과 사용한 기능에 대해서만 비용을 지불하므로, 대규모 이벤트 시에는 확장하고 비수기에는 비용을 최적화하기에 용이합니다. 소셜 미디어로의 빠른 확산이 중요한 스포츠 중계나 라이브 커머스 분야에서 이 서비스는 필수적인 도구가 될 것으로 보입니다. 특히 기존 AWS Elemental 서비스를 사용 중인 고객이라면 별도의 인프라 수정 없이 즉각적으로 모바일 전용 피드를 생성하여 시청자 접점을 확대할 것을 권장합니다.

조류 데이터를 학습한 (새 탭에서 열림)

구글 딥마인드의 바이오어쿠스틱 파운데이션 모델인 Perch 2.0은 주로 조류와 육상 동물의 소리로 학습되었음에도 불구하고, 수중 환경의 고래 음향 분류 작업에서 탁월한 성능을 보여주었습니다. 이 모델은 직접적인 수중 데이터를 학습하지 않고도 전이 학습(Transfer Learning)을 통해 다양한 해양 생물 종과 생태형을 정밀하게 식별할 수 있음을 입증했습니다. 이는 대규모 데이터로 학습된 범용 모델이 물리적 환경이 전혀 다른 영역에서도 강력한 일반화 능력을 발휘할 수 있음을 시사하며, 해양 생태계 연구의 효율성을 획기적으로 높일 수 있는 가능성을 제시합니다. **전이 학습을 활용한 효율적인 음향 분류** * **임베딩 생성**: Perch 2.0과 같은 사전 학습된 모델은 복잡한 오디오 데이터를 '임베딩(Embedding)'이라고 불리는 작은 특징 배열로 압축합니다. * **저비용 모델 구축**: 대규모 신경망 전체를 처음부터 학습시키는 대신, 추출된 임베딩을 입력값으로 사용하는 단순한 로지스틱 회귀(Logistic Regression) 분류기만 추가하여 새로운 소리를 학습할 수 있습니다. * **자원 절약**: 이 방식은 연구자가 고성능 컴퓨팅 자원을 대량으로 소모하지 않고도 몇 개의 라벨링된 샘플(Few-shot)만으로 특정 해양 생물에 최적화된 맞춤형 분류기를 신속하게 만들 수 있게 해줍니다. **다양한 해양 데이터셋을 통한 성능 검증** * **평가 데이터셋**: 혹등고래, 대왕고래 등 발린고래류를 포함한 'NOAA PIPAN', 산호초의 생물학적 소음이 담긴 'ReefSet', 그리고 범고래의 세부 생태형(Ecotype)을 구분하는 'DCLDE' 데이터셋을 사용하여 모델을 평가했습니다. * **비교 모델**: 기존의 수중 전용 모델인 SurfPerch를 비롯하여 Perch 1.0, 조류 전용 모델인 BirdNet, 그리고 AVES 등 타사의 바이오어쿠스틱 모델들과 성능을 대조했습니다. * **분류 정확도**: Perch 2.0은 거의 모든 테스트 데이터셋과 샘플 수(4~32개) 조건에서 1위 혹은 2위의 AUC_ROC 점수를 기록하며, 수중 오디오로 학습된 모델들에 뒤지지 않거나 오히려 앞서는 성능을 보였습니다. **조류 모델이 수중 소리를 잘 식별하는 이유** * **일반화 능력**: 대규모의 다양한 데이터셋으로 학습된 거대 파운데이션 모델은 특정 종의 소리에 국한되지 않고 소리의 본질적인 패턴을 파악하는 능력이 뛰어납니다. * **음향적 유사성**: 조류의 지저귐과 고래의 노랫소리는 주파수나 구조적 측면에서 공통적인 특징을 공유하는 경우가 많아, 육상 동물 데이터로 구축된 특징 추출 메커니즘이 수중 환경에도 유효하게 작용합니다. * **연구 확장성**: 구글은 연구자들이 이 기술을 쉽게 활용할 수 있도록 Google Colab 튜토리얼을 제공하며, 이를 통해 NOAA의 수동 음향 데이터 아카이브를 활용한 맞춤형 고래 분류기 구축을 지원합니다. 해양 생물학 연구자들은 Perch 2.0의 임베딩 기능을 활용함으로써 방대한 수중 녹음 데이터에서 미지의 소리를 분류하는 시간을 단축할 수 있습니다. 특히 새롭게 발견된 '바이오트왱(Biotwang)'과 같은 정체불명의 소리를 식별하거나, 특정 지역의 범고래 하위 집단을 구분하는 정밀한 연구에 이 모델을 적극적으로 활용해 볼 것을 권장합니다.

휴먼 네이티브가 클 (새 탭에서 열림)

Cloudflare는 영국 기반의 AI 데이터 마켓플레이스인 Human Native를 인수하여 생성형 AI 시대에 걸맞은 새로운 인터넷 경제 모델 구축에 나섰습니다. 이번 인수를 통해 Cloudflare는 비정형 멀티미디어 콘텐츠를 고품질의 학습용 데이터로 변환하고, 창작자가 자신의 저작물에 대한 제어권과 공정한 보상을 받을 수 있는 기술적 토대를 강화할 예정입니다. 궁극적으로 양사는 무분별한 스크래핑 대신 투명하고 구조화된 데이터 거래 생태계를 조성하여 AI와 창작자가 공존하는 지속 가능한 인터넷 환경을 만드는 것을 목표로 합니다. **Human Native의 기술력과 고품질 데이터의 가치** * Human Native는 흩어져 있는 비정형 멀티미디어 콘텐츠를 AI가 이해하고 학습할 수 있는 고품질의 검색 가능한 데이터로 변환하는 데 특화되어 있습니다. * 데이터를 단순히 긁어모으는(Scraping) 대상이 아닌, 구조와 투명성, 존중이 필요한 자산(Asset)으로 취급합니다. * 실제로 영국의 한 비디오 AI 기업은 기존 학습 데이터를 폐기하고 Human Native를 통해 확보한 라이선스 기반의 고품질 데이터로 교체한 후 기술적 성능이 비약적으로 향상되는 결과를 얻었습니다. **위기에 처한 인터넷 경제 모델과 창작자의 권리** * 지난 30년 동안 인터넷은 '콘텐츠 제공과 트래픽 유입'이라는 교환 공식으로 유지되었으나, 최근 AI 봇의 무분별한 크롤링으로 인해 이 생태계가 위협받고 있습니다. * 실제 사람의 방문 대비 AI 크롤링 비율이 급증하면서 창작자들은 자신의 콘텐츠가 어떻게 사용되는지 알기 어려워졌습니다. * Cloudflare는 'AI Crawl Control'과 'Pay Per Crawl' 등의 도구를 통해 콘텐츠 소유자가 AI 시스템의 접근 여부와 시기, 그리고 직접적인 보상 여부를 스스로 결정할 수 있도록 지원합니다. **AI 개발자를 위한 차세대 데이터 인프라: AI Index** * 기존의 웹 크롤링은 엔지니어링 및 컴퓨팅 비용이 많이 들고 중복, 스팸, 저작권 위반 등 품질 제어가 어렵다는 단점이 있습니다. * Cloudflare는 무작위 크롤링 대신 '발행/구독(Pub/Sub)' 모델인 'AI Index'를 구축하고 있습니다. * 참여 웹사이트가 콘텐츠 변경 시 구조화된 업데이트를 노출하면, AI 개발자가 실시간으로 이를 구독하여 고품질의 데이터를 효율적으로 수급할 수 있는 방식입니다. **기계 간 거래를 위한 x402 및 경제적 토대 마련** * 기존 웹 결제 시스템은 인간 중심(카드 정보 입력, 클릭 등)으로 설계되어 자동화된 시스템 간의 대량 거래에는 부적합합니다. * Cloudflare는 Coinbase와 협력하여 기계 간(Machine-to-Machine) 거래를 지원하는 'x402 Foundation'을 설립하고 디지털 자산에 대한 새로운 결제 프로토콜을 개발 중입니다. * 이를 통해 콘텐츠 제공자와 AI 에이전트 간의 즉각적이고 투명한 경제적 거래가 가능해질 전망입니다. Cloudflare와 Human Native의 결합은 단순히 데이터를 모으는 기술을 넘어, AI 시대의 인터넷이 '개방성'과 '공정성'을 동시에 유지할 수 있는 제도적, 기술적 장치를 마련하는 중요한 이정표가 될 것입니다. 기업과 창작자들은 앞으로 AI Index와 같은 구조화된 데이터 전달 체계와 x402 기반의 자동 결제 모델을 통해 자신의 디지털 자산을 더 안전하게 보호하고 수익화할 수 있는 기회를 갖게 될 것입니다.

연구 혁신과 실세계 적용 (새 탭에서 열림)

구글 리서치는 강력한 AI 모델과 에이전트 도구를 통해 기초 과학 연구가 실제 서비스로 연결되고, 이것이 다시 새로운 연구 동력으로 이어지는 '연구의 마법 사이클(Magic Cycle of Research)'을 가속화하고 있습니다. 특히 지학, 유전학, 양자 컴퓨팅 분야에서 거둔 최근의 성과들은 AI가 복잡한 데이터를 이해하고 추론하는 단계를 넘어 인류가 직면한 거대한 과제들을 해결하는 핵심 도구로 진화했음을 보여줍니다. 이러한 기술적 진보는 오픈 플랫폼과 협력을 통해 전 세계 학계와 산업계로 확산되며 실질적인 사회적 영향력을 창출하고 있습니다. ### Google Earth AI: 거대 언어 모델 기반의 지리공간 추론 * 홍수, 산불, 대기 질 등 다양한 지리공간 AI 모델을 통합하여 지구 전체의 변화를 전례 없는 수준으로 파악할 수 있는 인프라를 구축했습니다. * '지리공간 추론 에이전트(Geospatial Reasoning Agent)'를 도입하여, 전문가가 아니더라도 자연어를 통해 복잡한 지리 데이터를 분석하고 공급망 관리나 위기 대응에 필요한 통찰을 얻을 수 있게 했습니다. * 하천 홍수 예측 모델의 범위를 전 세계 150개국, 20억 명 이상의 인구 거주 지역으로 대폭 확장하여 재난 대비 능력을 강화했습니다. * 새로운 원격 감지 파운데이션 모델과 인구 역학 모델을 공개하고, 구글 어스에 제미나이(Gemini) 기능을 탑재하여 위성 이미지 내 객체 검색 성능을 높였습니다. ### DeepSomatic 및 유전학 연구: 정밀 의료를 통한 암 정복 * 네이처 바이오테크놀로지에 발표된 'DeepSomatic'은 종양 내에서 발생하는 미세한 체세포 변이(Somatic mutations)를 정확하게 식별하여 맞춤형 암 치료를 지원합니다. * 지난 10년간의 유전학 연구 노하우를 결합하여 인간 및 비인간 게놈 지도를 정교하게 매핑하고, 질병의 근본 원인을 파악하는 데 기여하고 있습니다. * 'Cell2Sentence' 기술을 통해 단일 세포 데이터를 언어 형태로 변환함으로써, 거대 언어 모델(LLM)이 생물학적 데이터를 학습하고 질병의 메커니즘을 추론할 수 있는 환경을 조성했습니다. ### 양자 에코(Quantum Echoes): 양자 시스템을 활용한 물리 법칙 시뮬레이션 * 양자 프로세서를 단순한 계산기가 아닌, 복잡한 물리 현상을 관찰하고 시뮬레이션하는 강력한 도구로 활용하고 있습니다. * '양자 에코' 기법을 통해 양자 시스템 내에서 정보가 어떻게 확산되고 소멸되는지(Information Scrambling)를 정밀하게 측정하는 데 성공했습니다. * 이러한 성과는 양자 컴퓨팅의 성능을 검증하는 벤치마크로 활용될 뿐만 아니라, 기존 고전 컴퓨터로는 불가능했던 물리적 난제들을 해결하는 가교 역할을 합니다. AI는 이제 단순한 소프트웨어 기술을 넘어 과학적 발견의 속도를 기하급수적으로 높이는 '가속기'가 되었습니다. 구글이 공개한 DeepSomatic과 같은 도구들과 지구 환경 모델들을 적극 활용한다면, 의료 및 환경 분야의 복잡한 문제들을 해결하는 데 있어 기술적 진입 장벽을 낮추고 혁신적인 솔루션을 빠르게 도출할 수 있을 것입니다.

구글 어스 AI: 파운데 (새 탭에서 열림)

구글 어스 AI(Google Earth AI)는 최신 제미나이(Gemini) 모델 기반의 추론 에이전트와 지리 공간 파운데이션 모델을 결합하여, 지구 규모의 복잡한 문제에 대해 실질적인 통찰을 제공하는 생태계입니다. 이 시스템은 위성 이미지, 인구 통계, 환경 데이터 등 서로 다른 영역의 정보를 통합 분석함으로써 기존 단일 모델로는 해결하기 어려웠던 교차 도메인 추론을 가능하게 합니다. 구글은 이를 통해 원격 탐사 및 인구 역학 분야에서 상태 최첨단(SOTA) 성능을 달성했으며, 구글 어스와 구글 클라우드를 통해 이러한 기능을 개발자와 기업에 확대 제공하고 있습니다. **원격 탐사 파운데이션 모델의 혁신** * 시각-언어 모델(VLM), 개방형 어휘 객체 탐지(Open-vocabulary detection), 적응형 비전 백본의 세 가지 핵심 기능을 통해 위성 이미지 분석 속도와 정확도를 대폭 향상했습니다. * 사용자는 "폭풍 후 침수된 모든 도로 찾기"와 같은 자연어 질의를 통해 고해상도 항공 이미지에서 즉각적이고 정확한 답변을 얻을 수 있습니다. * 텍스트 기반 이미지 검색 작업에서 기존 대비 평균 16% 이상의 성능 향상을 보였으며, 미학습 객체에 대한 제로샷(Zero-shot) 탐지 정확도는 기존 베이스라인 모델보다 2배 이상 높습니다. **인구 역학 및 모빌리티 AI 분석** * 인구 역학 파운데이션(Population Dynamics Foundations) 모델을 통해 사람과 장소 간의 복잡한 상호작용을 이해하고, 시간에 따른 인구 이동 및 활동 변화를 분석합니다. * 전 세계 17개국에 걸친 일관된 임베딩 데이터와 매월 업데이트되는 시계열 정보를 제공하여, 인구 밀도, 수목 피복도, 야간 조명 등 다양한 지표를 정밀하게 예측합니다. * 실제 활용 사례로 옥스퍼드 대학의 연구에 따르면, 브라질의 뎅기열 확산 예측 모델에 이 임베딩을 적용했을 때 12개월 장기 예측 정확도(R²)가 0.456에서 0.656으로 크게 개선되었습니다. **지능형 공간 추론 에이전트의 역할** * 제미나이 모델을 기반으로 하는 공간 추론 에이전트는 복잡하고 추상적인 질문을 단계별 실행 계획으로 분해하는 지능형 오케스트레이터 역할을 수행합니다. * 에이전트는 파운데이션 모델 호출, 방대한 데이터 저장소 쿼리, 지리 공간 분석 도구 활용 등을 직접 실행하며, 각 단계에서 도출된 결과를 종합하여 최종적인 해답을 제시합니다. * 예를 들어 "허리케인 상륙 가능성이 높은 지역과 가장 취약한 공동체는 어디인가?"라는 질문에 대해 이미지, 환경, 인구 데이터를 융합 분석하여 구체적인 대비책을 도출할 수 있습니다. 구글 어스 AI는 기후 변화 대응, 재난 관리, 도시 계획 등 전 지구적 과제를 해결하려는 기업과 연구자들에게 강력한 도구를 제공합니다. 현재 구글은 개발자와 기업 사용자를 대상으로 이 새로운 기능에 대한 접근 권한을 확대하고 있으므로, 고도화된 공간 데이터 분석이 필요한 조직은 구글 클라우드 및 구글 어스 AI 웹사이트를 통해 기술 도입을 검토할 것을 권장합니다.

시계열 파운데이션 모델 (새 탭에서 열림)

구글 리서치는 시계열 파운데이션 모델인 TimesFM에 '인-맥락 파인튜닝(In-Context Fine-tuning, ICF)' 기법을 도입하여, 추론 시점의 몇 가지 예시만으로 예측 성능을 극대화하는 퓨샷 학습(Few-shot Learning) 접근법을 제안했습니다. 기존의 제로샷 모델이 가진 한계를 극복하기 위해 지속적인 사전 학습(Continued Pre-training)을 활용했으며, 이를 통해 사용자가 복잡한 추가 학습을 수행하지 않고도 태스크별로 최적화된 정교한 예측 결과를 얻을 수 있음을 입증했습니다. ## 기존 모델의 한계와 퓨샷 학습의 필요성 * 시계열 예측은 비즈니스 전반에 필수적이지만, 기존 방식은 각 태스크마다 특화된 모델을 개별적으로 구축해야 하므로 시간과 비용이 많이 소모됨. * 제로샷 모델인 TimesFM은 별도 학습 없이도 준수한 성능을 보이지만, 관련 있는 과거 데이터나 유사한 사례(예: 인근 도로의 교통량)를 참고하여 성능을 더 높일 수 있는 유연성이 부족했음. * TimesFM-ICF는 모델이 추론 시점에 주어진 몇 개의 관련 예시(In-Context Examples)로부터 스스로 학습하여 예측에 반영하도록 설계됨. ## 구분자 토큰(Separator Token)을 통한 데이터 혼선 방지 * 서로 다른 출처의 데이터를 단순히 나열하여 입력하면 모델이 이를 하나의 연속된 흐름으로 오해하여 잘못된 패턴(예: 갑작스러운 급증락)을 학습할 위험이 있음. * 이를 해결하기 위해 학습 가능한 '공통 구분자 토큰'을 도입하여 각 예시 데이터 사이의 경계를 명확히 설정함. * 모델은 이 구분자를 통해 개별 예시들을 독립적으로 인식하며, 각 데이터의 고유한 패턴만 추출하여 현재 예측하려는 시계열에 적용할 수 있게 됨. ## 모델 구조 및 지속적 사전 학습 방식 * TimesFM의 기본 구조인 패치 데코더(Patched Decoder)를 유지하며, 32개의 시점을 하나의 토큰으로 변환한 뒤 트랜스포머 스택을 거쳐 128개 시점을 예측함. * 인-맥락 예시와 구분자 토큰이 포함된 새로운 데이터셋으로 '지속적 사전 학습'을 수행하여 모델이 예시로부터 정보를 얻는 방법을 익히게 함. * 인과적 자기 주의 집중(Causal Self Attention, CSA) 레이어를 통해 미래 데이터를 참조하지 않으면서도 과거의 맥락 정보를 효율적으로 통합함. ## 성능 검증 및 벤치마크 결과 * 모델이 학습 과정에서 한 번도 본 적 없는 23개의 데이터셋을 대상으로 성능을 평가함. * 실험 결과, TimesFM-ICF는 기존 제로샷 방식보다 월등한 성능을 보였으며, 훨씬 더 복잡한 과정인 지도 파인튜닝(Supervised Fine-tuning)과 대등한 수준의 정확도를 기록함. * 특히 시계열 데이터 처리 능력이 부족한 GPT-4o와 같은 일반적인 대규모 언어 모델(LLM)들에 비해 훨씬 더 정교하고 효율적인 예측 성능을 입증함. TimesFM-ICF는 시계열 예측 분야에서 모델의 재학습 없이도 도메인별 맥락을 즉각적으로 반영할 수 있는 실용적인 해결책을 제시합니다. 사용자는 예측하고자 하는 데이터와 유사한 소수의 샘플을 함께 입력하는 것만으로도 전문가 수준의 최적화된 예측 결과를 얻을 수 있습니다.

SensorLM: 웨어 (새 탭에서 열림)

구글 리서치가 발표한 SensorLM은 약 6,000만 시간 분량의 방대한 웨어러블 센서 데이터를 자연어와 연결하여 학습한 새로운 유형의 센서-언어 파운데이션 모델입니다. 이 모델은 스마트워치 등이 수집하는 복잡한 센서 신호를 인간이 이해할 수 있는 정교한 설명으로 변환함으로써, 단순한 수치 기록을 넘어 행동의 맥락과 원인을 파악하는 헬스케어의 새로운 지평을 열었습니다. 대규모 멀티모달 학습을 통해 제로샷 활동 인식 및 텍스트 생성 분야에서 기존 모델을 뛰어넘는 성능을 입증하며 개인 맞춤형 건강 관리의 가능성을 제시합니다. **데이터셋 구축 및 자동화된 캡션 생성** - 127개국 10만 명 이상의 동의를 얻은 익명화된 핏빗(Fitbit) 및 픽셀 워치 데이터를 활용하여 총 5,970만 시간 분량의 역대 최대 규모 센서-언어 데이터셋을 구축했습니다. - 사람이 일일이 데이터를 라벨링하는 비용 문제를 해결하기 위해, 센서 데이터의 통계 정보와 추세, 주요 이벤트를 분석하여 자동으로 상세한 설명을 생성하는 '계층적 파이프라인'을 개발했습니다. - 이를 통해 기존 연구들보다 수십 배 큰 규모의 데이터를 확보함으로써 고차원 센서 신호와 자연어 사이의 미세한 상관관계를 학습할 수 있는 기반을 마련했습니다. **대조 학습과 생성 학습의 통합 아키텍처** - 센서 조각과 텍스트 설명을 매칭하는 '대조 학습(Contrastive Learning)'을 적용하여 수영이나 근력 운동 같은 서로 다른 활동을 정밀하게 구분하는 능력을 갖췄습니다. - 고차원 센서 신호로부터 직접 맥락에 맞는 텍스트 캡션을 생성하는 '생성형 사전 학습(Generative Pre-training)'을 결합하여 데이터의 의미를 능동적으로 해석하도록 설계했습니다. - 두 학습 전략을 단일 프레임워크로 통합함으로써 센서 데이터의 통계적 특성뿐만 아니라 구조적, 의미론적 차원까지 아우르는 깊이 있는 이해가 가능해졌습니다. **활동 인식 및 교차 모달 검색 능력** - 별도의 미세 조정(Fine-tuning) 없이도 20가지 활동을 정확히 분류하는 제로샷(Zero-shot) 성능을 보여주며, 일반적인 거대 언어 모델(LLM)보다 월등히 높은 정확도를 기록했습니다. - 소량의 데이터만으로 새로운 작업에 적응하는 퓨샷(Few-shot) 학습 능력이 뛰어나, 개인별로 다른 활동 패턴이나 특수한 건강 상태에도 유연하게 대응할 수 있습니다. - 텍스트로 특정 센서 패턴을 찾거나 반대로 센서 데이터를 통해 자연어 설명을 추출하는 '교차 모달 검색' 기능을 통해 전문가의 데이터 분석 효율성을 극대화했습니다. **고도화된 상황 인식 캡션 생성** - 웨어러블 기기에서 발생하는 복잡한 신호를 입력받아 계층적이고 문맥에 맞는 자연어 설명을 생성하며, 기존 비전담 LLM 대비 사실 관계가 정확하고 일관성 있는 텍스트를 출력합니다. - 단순한 활동 요약을 넘어 센서 신호에 담긴 통계적 추이와 구조적 변화를 인간의 언어로 번역함으로써 사용자가 자신의 건강 데이터를 훨씬 직관적으로 이해할 수 있도록 돕습니다. SensorLM은 단순히 수치를 기록하는 기기를 넘어 사용자의 상태를 이해하고 설명해 주는 지능형 건강 비서로의 진화를 예고합니다. 이러한 기술은 향후 전문가 수준의 건강 분석 도구나 개인 맞춤형 웰니스 서비스에 핵심 기술로 활용될 것으로 기대됩니다.

LSM-2: 불 (새 탭에서 열림)

Google Research는 실제 환경의 웨어러블 센서 데이터에서 빈번하게 발생하는 데이터 공백(missingness) 문제를 해결하기 위해 LSM-2(Large Sensor Model-2)를 공개했습니다. 이 모델은 데이터가 불완전하더라도 이를 억지로 채우거나 삭제하지 않고, '적응형 상속 마스킹(AIM)' 기법을 통해 데이터의 결손 자체를 자연스러운 특징으로 학습합니다. 그 결과, LSM-2는 대규모 데이터셋을 바탕으로 분류, 회귀, 생성 등 다양한 건강 관련 태스크에서 기존의 보간(imputation) 방식보다 뛰어난 성능과 견고함을 입증했습니다. **웨어러블 데이터의 결손 문제와 한계** * 충전, 기기 미착용, 움직임에 의한 노이즈, 배터리 절약 모드 등으로 인해 실제 웨어러블 센서 데이터에는 필연적으로 공백이 발생합니다. * 연구팀이 분석한 160만 개의 일일 데이터 창 중에서 결손율이 0%인 샘플은 단 하나도 없었을 정도로 데이터의 불완전성은 보편적인 문제입니다. * 기존의 자가 지도 학습(SSL)은 완벽한 데이터를 가정하며, 결손이 있을 경우 데이터를 임의로 채우는 보간법을 쓰거나 불완전한 샘플을 삭제해 버리는데, 이는 데이터 편향을 초래하거나 귀중한 정보를 손실하는 결과를 낳습니다. **AIM(Adaptive and Inherited Masking) 프레임워크** * AIM은 결손된 데이터를 오류로 처리하는 대신, 이를 데이터의 고유한 속성으로 간주하고 직접 학습하는 새로운 자가 지도 학습 방식입니다. * 마스킹 방식은 데이터에 원래 존재하는 공백인 '상속된 마스크(Inherited Mask)'와 학습을 위해 의도적으로 가린 '인공적 마스크(Artificial Mask)'를 결합하여 구성됩니다. * **토큰 드롭아웃(Token Drop-out):** 계산 효율성을 위해 고정된 비율의 마스킹된 토큰을 인코더 처리 과정에서 제외합니다. * **어텐션 마스킹(Attention Masking):** 고정된 비율을 초과하여 발생하는 가변적인 데이터 공백은 트랜스포머 블록 내에서 어텐션 마스킹을 통해 유연하게 처리합니다. **LSM-2의 학습 및 성능 지표** * 약 6만 명 이상의 참가자로부터 수집한 4,000만 시간 분량의 익명화된 웨어러블 데이터(Fitbit 및 Pixel Watch)를 사용하여 LSM-2를 사전 학습했습니다. * LSM-2는 심박수 신호, 수면 패턴, 활동량 등 다중 모드(multimodal) 데이터를 통합적으로 이해하며, 이전 모델인 LSM-1보다 향상된 성능을 보여줍니다. * 특히 센서가 일시적으로 작동하지 않거나 특정 시간대 데이터가 통째로 누락된 상황에서도, 보간법을 사용한 모델들에 비해 성능 저하가 훨씬 적고 견고한 예측력을 유지합니다. **실용적인 결론 및 추천** 현실 세계의 웨어러블 기기 데이터를 다루는 개발자나 연구자라면, 불완전한 데이터를 정제하거나 채우는 데 리소스를 쏟기보다 LSM-2와 같이 결손 자체를 학습 프로세스에 통합하는 접근법을 고려해야 합니다. AIM 기법은 데이터의 가변적인 파편화를 자연스럽게 수용하므로, 고혈압 예측과 같은 실제 임상적 다운스트림 태스크에서 더욱 정확하고 일반화된 결과를 도출하는 데 효과적입니다.

모빌리티 AI를 소개합니다: (새 탭에서 열림)

구글 리서치는 급격한 도시화와 자율주행, 전자상거래 확산 등 변화하는 교통 환경에 대응하기 위해 AI 기반의 차세대 교통 관리 프로그램인 'Mobility AI'를 발표했습니다. 이 프로그램은 측정, 시뮬레이션, 최적화라는 세 가지 핵심 기둥을 중심으로 도시 교통 시스템의 데이터를 분석하고, 정책 결정자와 엔지니어에게 실질적인 해결책을 제공하는 것을 목표로 합니다. 결과적으로 Mobility AI는 교통 체증 완화, 탄소 배출 감소, 그리고 도로 안전 강화를 통해 지속 가능한 도시 이동성을 실현하고자 합니다. ### 정밀 측정을 통한 교통 현황 및 이동 패턴 분석 - ML 기반의 혼잡 함수(Congestion Functions)를 통해 차량 통행량과 속도의 상관관계를 수학적으로 모델링하며, 전체 데이터가 아닌 일부 부동 차량 데이터(Floating car data)만으로도 도시 전역의 교통 흐름을 정밀하게 유추합니다. - 자기지도 학습(Self-supervised learning)을 활용한 지오스페이셜 임베딩 기술로 데이터가 부족한 지역에서도 지역적 특성과 공간적 관계를 파악하여 이동 패턴을 정교하게 이해합니다. - 인과 추론(Causal inference) 기술을 도입해 날씨나 공휴일 같은 복잡한 변수 속에서도 신호 체계 변경과 같은 특정 개입이 실제 교통 흐름에 미친 순수한 효과를 정확히 측정합니다. ### 고충실도 시뮬레이션을 활용한 디지털 트윈 구축 - 기존의 수동적이고 느린 시뮬레이션의 한계를 극복하기 위해, 머신러닝이 실제 도로 위 운전자들의 행동을 직접 학습하여 반영하는 'Traffic Simulation API'를 개발했습니다. - 고해상도 이동 데이터를 활용한 자동 보정 기술을 통해 도시 전체 규모의 '디지털 트윈'을 신속하게 생성하며, 이를 통해 새로운 교통 정책이나 인프라 변화의 결과를 가상 환경에서 미리 검증할 수 있습니다. - 대규모 이벤트 이후의 교통 흐름을 분석하거나 대중교통 및 보행자 환경 개선을 위한 다양한 시나리오를 고성능 시뮬레이션 환경에서 테스트하여 최적의 대안을 찾습니다. ### 실질적 개선을 위한 지능형 교통 최적화 - '그린 라이트(Green Light)' 프로젝트를 통해 AI가 기존 교차로의 신호 타이밍을 최적화함으로써 불필요한 정차를 줄이고 연료 소비 및 온실가스 배출을 감축하고 있습니다. - 현재 전 세계 3,000개 이상의 교차로에서 운영 중인 이 기술은 별도의 하드웨어 설치 없이 구글 맵의 데이터를 활용해 도시 당국에 효율적인 신호 조절 권장 사항을 제공합니다. - 교통 신호 제어 API(Traffic Signal Control API)를 통해 지자체가 직접 AI 기반의 최적화 제안을 받아 현장에 적용할 수 있도록 지원하며, 향후 연석 공간 관리나 화물 운송 최적화로 서비스 영역을 확장할 계획입니다. Mobility AI는 구글의 방대한 지리정보 데이터와 고도화된 AI 기술을 결합하여 공공 부문의 교통 문제를 해결하려는 혁신적인 시도입니다. 교통 당국은 이 플랫폼을 통해 단순한 현황 파악을 넘어 미래 변화를 과학적으로 예측하고, 데이터에 기반한 정책을 수립함으로써 시민들에게 더 안전하고 효율적인 이동 경험을 제공할 수 있을 것입니다.

지리공간 추론: 생성 (새 탭에서 열림)

구글 리서치는 생성형 AI와 다중 파운데이션 모델을 결합하여 복잡한 지리 공간 문제를 해결하는 '지형 공간 추론(Geospatial Reasoning)' 연구 프레임워크를 공개했습니다. 이 시스템은 고해상도 원격 탐사 데이터, 인구 역학, 이동 경로 모델을 통합하여 전문 지식 없이도 자연어로 고차원적인 지리적 분석 결과를 도출할 수 있게 지원합니다. 이를 통해 재난 대응, 도시 계획, 기후 회복력 강화 등 다양한 분야에서 데이터 기반의 의사결정 속도를 획기적으로 높일 것으로 기대됩니다. **지형 공간 파운데이션 모델의 기술적 토대** * **원격 탐사 모델의 아키텍처**: Masked Autoencoders, SigLIP, MaMMUT, OWL-ViT 등 검증된 시각-언어 모델 구조를 원격 탐사 영역에 맞게 최적화하여 적용했습니다. * **다양한 데이터 학습**: 텍스트 설명과 바운딩 박스(Bounding Box) 주석이 포함된 고해상도 위성 및 항공 이미지를 대규모로 학습하여, 이미지와 객체에 대한 정교한 임베딩을 생성합니다. * **자연어 기반 제로샷(Zero-shot) 분류**: 별도의 추가 학습 없이 "태양광 패널이 있는 주거용 건물"이나 "통행 불가능한 도로"와 같은 자연어 검색만으로 특정 지형이나 시설을 찾아낼 수 있습니다. * **성능 검증 및 실전 투입**: 분류, 세그멘테이션, 객체 탐지 벤치마크에서 SOTA(최고 수준) 성능을 기록했으며, 구글의 실제 재난 대응 및 도시/농업 경관 매핑 프로젝트에서 그 효용성을 입증했습니다. **데이터 통합과 에이전트 기반 추론 프레임워크** * **다중 모델 결합**: 인구 행동과 환경의 상호작용을 분석하는 '인구 역학 파운데이션 모델(PDFM)'과 궤적 기반의 '모빌리티 모델'을 통합하여 다각적인 분석이 가능합니다. * **LLM 기반 에이전트 워크플로우**: Gemini와 같은 거대언어모델(LLM)이 복잡한 지리 공간 데이터를 관리하고 조율하는 에이전트 역할을 수행하여, 복잡한 분석 과정을 자동화합니다. * **인구 역학 데이터의 글로벌 확장**: 기존 미국 중심의 PDFM 데이터를 영국, 호주, 일본, 캐나다, 말라위 등으로 확장하여 전 세계적인 분석 기반을 마련 중입니다. * **산업 파트너십**: Airbus, Maxar, Planet Labs 등 글로벌 위성 데이터 기업들과 협력하여 실무 환경에서의 테스트를 진행하고 있습니다. 현재 구글은 '신뢰할 수 있는 테스터 프로그램'을 통해 해당 모델들에 대한 접근권을 제공하고 있습니다. 지리 공간 데이터 분석의 높은 진입 장벽을 낮추고자 하는 조직은 구글 리서치가 제공하는 파운데이션 모델 임베딩을 활용해 독자적인 분석 모델을 고도화하거나, 자연어 기반의 지형 추론 워크플로우를 실험적으로 도입해 보는 것을 권장합니다.