decoder-only

1 개의 포스트

시계열 파운데이션 모델 (새 탭에서 열림)

구글 리서치는 시계열 파운데이션 모델인 TimesFM에 '인-맥락 파인튜닝(In-Context Fine-tuning, ICF)' 기법을 도입하여, 추론 시점의 몇 가지 예시만으로 예측 성능을 극대화하는 퓨샷 학습(Few-shot Learning) 접근법을 제안했습니다. 기존의 제로샷 모델이 가진 한계를 극복하기 위해 지속적인 사전 학습(Continued Pre-training)을 활용했으며, 이를 통해 사용자가 복잡한 추가 학습을 수행하지 않고도 태스크별로 최적화된 정교한 예측 결과를 얻을 수 있음을 입증했습니다. ## 기존 모델의 한계와 퓨샷 학습의 필요성 * 시계열 예측은 비즈니스 전반에 필수적이지만, 기존 방식은 각 태스크마다 특화된 모델을 개별적으로 구축해야 하므로 시간과 비용이 많이 소모됨. * 제로샷 모델인 TimesFM은 별도 학습 없이도 준수한 성능을 보이지만, 관련 있는 과거 데이터나 유사한 사례(예: 인근 도로의 교통량)를 참고하여 성능을 더 높일 수 있는 유연성이 부족했음. * TimesFM-ICF는 모델이 추론 시점에 주어진 몇 개의 관련 예시(In-Context Examples)로부터 스스로 학습하여 예측에 반영하도록 설계됨. ## 구분자 토큰(Separator Token)을 통한 데이터 혼선 방지 * 서로 다른 출처의 데이터를 단순히 나열하여 입력하면 모델이 이를 하나의 연속된 흐름으로 오해하여 잘못된 패턴(예: 갑작스러운 급증락)을 학습할 위험이 있음. * 이를 해결하기 위해 학습 가능한 '공통 구분자 토큰'을 도입하여 각 예시 데이터 사이의 경계를 명확히 설정함. * 모델은 이 구분자를 통해 개별 예시들을 독립적으로 인식하며, 각 데이터의 고유한 패턴만 추출하여 현재 예측하려는 시계열에 적용할 수 있게 됨. ## 모델 구조 및 지속적 사전 학습 방식 * TimesFM의 기본 구조인 패치 데코더(Patched Decoder)를 유지하며, 32개의 시점을 하나의 토큰으로 변환한 뒤 트랜스포머 스택을 거쳐 128개 시점을 예측함. * 인-맥락 예시와 구분자 토큰이 포함된 새로운 데이터셋으로 '지속적 사전 학습'을 수행하여 모델이 예시로부터 정보를 얻는 방법을 익히게 함. * 인과적 자기 주의 집중(Causal Self Attention, CSA) 레이어를 통해 미래 데이터를 참조하지 않으면서도 과거의 맥락 정보를 효율적으로 통합함. ## 성능 검증 및 벤치마크 결과 * 모델이 학습 과정에서 한 번도 본 적 없는 23개의 데이터셋을 대상으로 성능을 평가함. * 실험 결과, TimesFM-ICF는 기존 제로샷 방식보다 월등한 성능을 보였으며, 훨씬 더 복잡한 과정인 지도 파인튜닝(Supervised Fine-tuning)과 대등한 수준의 정확도를 기록함. * 특히 시계열 데이터 처리 능력이 부족한 GPT-4o와 같은 일반적인 대규모 언어 모델(LLM)들에 비해 훨씬 더 정교하고 효율적인 예측 성능을 입증함. TimesFM-ICF는 시계열 예측 분야에서 모델의 재학습 없이도 도메인별 맥락을 즉각적으로 반영할 수 있는 실용적인 해결책을 제시합니다. 사용자는 예측하고자 하는 데이터와 유사한 소수의 샘플을 함께 입력하는 것만으로도 전문가 수준의 최적화된 예측 결과를 얻을 수 있습니다.