단 몇 개의 예시 (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다.

기존 천문학 데이터 처리의 병목 현상

  • 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다.
  • 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다.
  • 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다.

소수 샷 학습을 통한 다중 양식 모델의 진화

  • 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다.
  • 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다.
  • 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다.

설명 가능한 AI와 전문가 수준의 정확도

  • 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다.
  • 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다.
  • 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다.

모델의 자가 불확실성 평가 능력

  • 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다.
  • 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다.
  • 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다.

이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.