self-supervised-learning

현대 세계 매핑하기: S2Vec이 우리 도시의 언어를 학습하는 방법 (새 탭에서 열림)

Google Research가 발표한 S2Vec은 도로, 건물, 인프라와 같은 인위적 환경(Built Environment)의 복잡한 데이터를 범용적인 임베딩으로 변환하는 자기지도 학습(Self-supervised) 프레임워크입니다. 이 모델은 지리 공간 데이터를 컴퓨터 비전 모델이 이해할 수 있는 래스터(Raster) 이미지 형태로 변환하고 마스크 오토인코딩(MAE) 기법을 적용하여, 수동 레이블링 없이도 전 세계의 사회경제적 및 환경적 패턴을 정밀하게 예측합니다. 결과적으로 S2Vec은 미학습 지역에 대한 지리적 적응력에서 뛰어난 성능을 보이며, 위성 이미지 데이터와 결합했을 때 더욱 강력한 지리 공간 지능을 제공합니다. ### 지리 공간 데이터의 래스터화와 S2 기하학 활용 * **데이터 구조화의 어려움 해결:** 도시 블록은 수백 개의 데이터 포인트를 갖는 반면 농촌은 거의 없는 등 데이터의 밀도 편차가 크다는 문제를 해결하기 위해 S2 Geometry 라이브러리를 사용합니다. * **계층적 셀 분할:** 지구 표면을 계층적인 셀로 나누어 국가 단위부터 수 평방미터 단위까지 다양한 해상도로 데이터를 효율적으로 조회하고 관리합니다. * **특징 래스터화(Feature Rasterization):** 각 S2 셀 내의 건물이나 도로 유형을 계산하여 다층 이미지 형태로 재구성합니다. 예를 들어 특정 셀의 커피숍과 공원 수를 이미지의 '색상' 채널처럼 처리함으로써 성숙한 컴퓨터 비전 기술을 지리 데이터 분석에 그대로 적용할 수 있게 합니다. ### 마스크 오토인코딩(MAE)을 통한 자기지도 학습 * **레이블링 병목 현상 제거:** 전 지구적 데이터를 수동으로 태깅하는 것은 불가능하므로, 데이터의 일부를 가리고(Masking) 주변 맥락을 통해 이를 재구성하도록 학습시키는 MAE 기법을 도입했습니다. * **문맥 논리 학습:** 고층 아파트와 지하철역이 있는 곳에는 식료품점이 있을 가능성이 높다는 식의 도시 구성 요소 간 상관관계를 모델 스스로 파악합니다. * **범용 임베딩 생성:** 수백만 번의 학습 과정을 통해 특정 위치의 고유한 특성을 수학적 수치(임베딩)로 압축하며, 이는 별도의 추가 학습 없이도 다양한 분석 작업에 활용될 수 있습니다. ### 사회경제적 예측 성능 및 다중 모달 융합 * **우수한 지리적 적응성(Extrapolation):** 학습 데이터에 포함되지 않은 새로운 지역의 인구 밀도나 가구 소득 중앙값을 예측하는 제로샷(Zero-shot) 과제에서 기존 이미지 기반 모델들보다 뛰어난 성능을 입증했습니다. * **다중 모달 융합(Multimodal Fusion):** S2Vec의 인위적 환경 데이터와 위성 이미지 임베딩(RS-MaMMUT 등)을 결합했을 때 가장 높은 성능을 기록했습니다. * **환경 지표의 한계:** 탄소 배출량 예측에는 효과적이었으나, 수목 피복도(Tree cover)나 고도와 같은 자연 환경 요소 예측에는 건물 수 중심의 데이터만으로는 한계가 있어 위성 이미지와의 결합이 필수적임을 확인했습니다. S2Vec은 지리 공간 AI가 수동으로 제작된 니치 모델에서 벗어나 확장 가능한 파운데이션 모델로 나아가는 중요한 단계입니다. 도시 계획가나 연구자들은 이 임베딩을 활용해 인프라 변화가 지역 사회의 보건이나 경제에 미치는 영향을 전 지구적 규모에서 더욱 정확하게 분석할 수 있을 것으로 기대됩니다. 구체적인 환경 분석이 필요한 경우, S2Vec 단독 사용보다는 위성 이미지 모델과 결합하여 데이터의 상호보완성을 극대화하는 방식을 추천합니다.

self-supervised-learning foundation-models computer-vision geospatial-data+4

google

LSM-2: 불 (새 탭에서 열림)

Google Research는 실제 환경의 웨어러블 센서 데이터에서 빈번하게 발생하는 데이터 공백(missingness) 문제를 해결하기 위해 LSM-2(Large Sensor Model-2)를 공개했습니다. 이 모델은 데이터가 불완전하더라도 이를 억지로 채우거나 삭제하지 않고, '적응형 상속 마스킹(AIM)' 기법을 통해 데이터의 결손 자체를 자연스러운 특징으로 학습합니다. 그 결과, LSM-2는 대규모 데이터셋을 바탕으로 분류, 회귀, 생성 등 다양한 건강 관련 태스크에서 기존의 보간(imputation) 방식보다 뛰어난 성능과 견고함을 입증했습니다. **웨어러블 데이터의 결손 문제와 한계** * 충전, 기기 미착용, 움직임에 의한 노이즈, 배터리 절약 모드 등으로 인해 실제 웨어러블 센서 데이터에는 필연적으로 공백이 발생합니다. * 연구팀이 분석한 160만 개의 일일 데이터 창 중에서 결손율이 0%인 샘플은 단 하나도 없었을 정도로 데이터의 불완전성은 보편적인 문제입니다. * 기존의 자가 지도 학습(SSL)은 완벽한 데이터를 가정하며, 결손이 있을 경우 데이터를 임의로 채우는 보간법을 쓰거나 불완전한 샘플을 삭제해 버리는데, 이는 데이터 편향을 초래하거나 귀중한 정보를 손실하는 결과를 낳습니다. **AIM(Adaptive and Inherited Masking) 프레임워크** * AIM은 결손된 데이터를 오류로 처리하는 대신, 이를 데이터의 고유한 속성으로 간주하고 직접 학습하는 새로운 자가 지도 학습 방식입니다. * 마스킹 방식은 데이터에 원래 존재하는 공백인 '상속된 마스크(Inherited Mask)'와 학습을 위해 의도적으로 가린 '인공적 마스크(Artificial Mask)'를 결합하여 구성됩니다. * **토큰 드롭아웃(Token Drop-out):** 계산 효율성을 위해 고정된 비율의 마스킹된 토큰을 인코더 처리 과정에서 제외합니다. * **어텐션 마스킹(Attention Masking):** 고정된 비율을 초과하여 발생하는 가변적인 데이터 공백은 트랜스포머 블록 내에서 어텐션 마스킹을 통해 유연하게 처리합니다. **LSM-2의 학습 및 성능 지표** * 약 6만 명 이상의 참가자로부터 수집한 4,000만 시간 분량의 익명화된 웨어러블 데이터(Fitbit 및 Pixel Watch)를 사용하여 LSM-2를 사전 학습했습니다. * LSM-2는 심박수 신호, 수면 패턴, 활동량 등 다중 모드(multimodal) 데이터를 통합적으로 이해하며, 이전 모델인 LSM-1보다 향상된 성능을 보여줍니다. * 특히 센서가 일시적으로 작동하지 않거나 특정 시간대 데이터가 통째로 누락된 상황에서도, 보간법을 사용한 모델들에 비해 성능 저하가 훨씬 적고 견고한 예측력을 유지합니다. **실용적인 결론 및 추천** 현실 세계의 웨어러블 기기 데이터를 다루는 개발자나 연구자라면, 불완전한 데이터를 정제하거나 채우는 데 리소스를 쏟기보다 LSM-2와 같이 결손 자체를 학습 프로세스에 통합하는 접근법을 고려해야 합니다. AIM 기법은 데이터의 가변적인 파편화를 자연스럽게 수용하므로, 고혈압 예측과 같은 실제 임상적 다운스트림 태스크에서 더욱 정확하고 일반화된 결과를 도출하는 데 효과적입니다.

self-supervised-learning ai transformer foundation-models+3