few-shot-learning

2 개의 포스트

단 몇 개의 예시 (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

시계열 파운데이션 모델 (새 탭에서 열림)

구글 리서치는 시계열 파운데이션 모델인 TimesFM에 '인-맥락 파인튜닝(In-Context Fine-tuning, ICF)' 기법을 도입하여, 추론 시점의 몇 가지 예시만으로 예측 성능을 극대화하는 퓨샷 학습(Few-shot Learning) 접근법을 제안했습니다. 기존의 제로샷 모델이 가진 한계를 극복하기 위해 지속적인 사전 학습(Continued Pre-training)을 활용했으며, 이를 통해 사용자가 복잡한 추가 학습을 수행하지 않고도 태스크별로 최적화된 정교한 예측 결과를 얻을 수 있음을 입증했습니다. ## 기존 모델의 한계와 퓨샷 학습의 필요성 * 시계열 예측은 비즈니스 전반에 필수적이지만, 기존 방식은 각 태스크마다 특화된 모델을 개별적으로 구축해야 하므로 시간과 비용이 많이 소모됨. * 제로샷 모델인 TimesFM은 별도 학습 없이도 준수한 성능을 보이지만, 관련 있는 과거 데이터나 유사한 사례(예: 인근 도로의 교통량)를 참고하여 성능을 더 높일 수 있는 유연성이 부족했음. * TimesFM-ICF는 모델이 추론 시점에 주어진 몇 개의 관련 예시(In-Context Examples)로부터 스스로 학습하여 예측에 반영하도록 설계됨. ## 구분자 토큰(Separator Token)을 통한 데이터 혼선 방지 * 서로 다른 출처의 데이터를 단순히 나열하여 입력하면 모델이 이를 하나의 연속된 흐름으로 오해하여 잘못된 패턴(예: 갑작스러운 급증락)을 학습할 위험이 있음. * 이를 해결하기 위해 학습 가능한 '공통 구분자 토큰'을 도입하여 각 예시 데이터 사이의 경계를 명확히 설정함. * 모델은 이 구분자를 통해 개별 예시들을 독립적으로 인식하며, 각 데이터의 고유한 패턴만 추출하여 현재 예측하려는 시계열에 적용할 수 있게 됨. ## 모델 구조 및 지속적 사전 학습 방식 * TimesFM의 기본 구조인 패치 데코더(Patched Decoder)를 유지하며, 32개의 시점을 하나의 토큰으로 변환한 뒤 트랜스포머 스택을 거쳐 128개 시점을 예측함. * 인-맥락 예시와 구분자 토큰이 포함된 새로운 데이터셋으로 '지속적 사전 학습'을 수행하여 모델이 예시로부터 정보를 얻는 방법을 익히게 함. * 인과적 자기 주의 집중(Causal Self Attention, CSA) 레이어를 통해 미래 데이터를 참조하지 않으면서도 과거의 맥락 정보를 효율적으로 통합함. ## 성능 검증 및 벤치마크 결과 * 모델이 학습 과정에서 한 번도 본 적 없는 23개의 데이터셋을 대상으로 성능을 평가함. * 실험 결과, TimesFM-ICF는 기존 제로샷 방식보다 월등한 성능을 보였으며, 훨씬 더 복잡한 과정인 지도 파인튜닝(Supervised Fine-tuning)과 대등한 수준의 정확도를 기록함. * 특히 시계열 데이터 처리 능력이 부족한 GPT-4o와 같은 일반적인 대규모 언어 모델(LLM)들에 비해 훨씬 더 정교하고 효율적인 예측 성능을 입증함. TimesFM-ICF는 시계열 예측 분야에서 모델의 재학습 없이도 도메인별 맥락을 즉각적으로 반영할 수 있는 실용적인 해결책을 제시합니다. 사용자는 예측하고자 하는 데이터와 유사한 소수의 샘플을 함께 입력하는 것만으로도 전문가 수준의 최적화된 예측 결과를 얻을 수 있습니다.