LSM-2: 불완 (새 탭에서 열림)
Google Research는 실제 환경의 웨어러블 센서 데이터에서 빈번하게 발생하는 데이터 공백(missingness) 문제를 해결하기 위해 LSM-2(Large Sensor Model-2)를 공개했습니다. 이 모델은 데이터가 불완전하더라도 이를 억지로 채우거나 삭제하지 않고, '적응형 상속 마스킹(AIM)' 기법을 통해 데이터의 결손 자체를 자연스러운 특징으로 학습합니다. 그 결과, LSM-2는 대규모 데이터셋을 바탕으로 분류, 회귀, 생성 등 다양한 건강 관련 태스크에서 기존의 보간(imputation) 방식보다 뛰어난 성능과 견고함을 입증했습니다.
웨어러블 데이터의 결손 문제와 한계
- 충전, 기기 미착용, 움직임에 의한 노이즈, 배터리 절약 모드 등으로 인해 실제 웨어러블 센서 데이터에는 필연적으로 공백이 발생합니다.
- 연구팀이 분석한 160만 개의 일일 데이터 창 중에서 결손율이 0%인 샘플은 단 하나도 없었을 정도로 데이터의 불완전성은 보편적인 문제입니다.
- 기존의 자가 지도 학습(SSL)은 완벽한 데이터를 가정하며, 결손이 있을 경우 데이터를 임의로 채우는 보간법을 쓰거나 불완전한 샘플을 삭제해 버리는데, 이는 데이터 편향을 초래하거나 귀중한 정보를 손실하는 결과를 낳습니다.
AIM(Adaptive and Inherited Masking) 프레임워크
- AIM은 결손된 데이터를 오류로 처리하는 대신, 이를 데이터의 고유한 속성으로 간주하고 직접 학습하는 새로운 자가 지도 학습 방식입니다.
- 마스킹 방식은 데이터에 원래 존재하는 공백인 '상속된 마스크(Inherited Mask)'와 학습을 위해 의도적으로 가린 '인공적 마스크(Artificial Mask)'를 결합하여 구성됩니다.
- 토큰 드롭아웃(Token Drop-out): 계산 효율성을 위해 고정된 비율의 마스킹된 토큰을 인코더 처리 과정에서 제외합니다.
- 어텐션 마스킹(Attention Masking): 고정된 비율을 초과하여 발생하는 가변적인 데이터 공백은 트랜스포머 블록 내에서 어텐션 마스킹을 통해 유연하게 처리합니다.
LSM-2의 학습 및 성능 지표
- 약 6만 명 이상의 참가자로부터 수집한 4,000만 시간 분량의 익명화된 웨어러블 데이터(Fitbit 및 Pixel Watch)를 사용하여 LSM-2를 사전 학습했습니다.
- LSM-2는 심박수 신호, 수면 패턴, 활동량 등 다중 모드(multimodal) 데이터를 통합적으로 이해하며, 이전 모델인 LSM-1보다 향상된 성능을 보여줍니다.
- 특히 센서가 일시적으로 작동하지 않거나 특정 시간대 데이터가 통째로 누락된 상황에서도, 보간법을 사용한 모델들에 비해 성능 저하가 훨씬 적고 견고한 예측력을 유지합니다.
실용적인 결론 및 추천 현실 세계의 웨어러블 기기 데이터를 다루는 개발자나 연구자라면, 불완전한 데이터를 정제하거나 채우는 데 리소스를 쏟기보다 LSM-2와 같이 결손 자체를 학습 프로세스에 통합하는 접근법을 고려해야 합니다. AIM 기법은 데이터의 가변적인 파편화를 자연스럽게 수용하므로, 고혈압 예측과 같은 실제 임상적 다운스트림 태스크에서 더욱 정확하고 일반화된 결과를 도출하는 데 효과적입니다.