AI 기반 실증 (새 탭에서 열림)

구글 리서치가 과학적 발견을 가속화하기 위해 '경험적 소프트웨어(Empirical Software)'를 자동으로 설계하고 최적화하는 새로운 AI 시스템을 공개했습니다. 이 시스템은 제미나이(Gemini) 모델과 트리 탐색 알고리즘을 결합하여 과학적 가설을 검증하는 맞춤형 코드를 생성하며, 유전학부터 시계열 예측까지 6개 분야의 복잡한 벤치마크에서 전문가 수준의 성과를 거두었습니다. 이를 통해 기존에 수개월이 걸리던 연구 탐색 과정을 단 몇 시간으로 단축하여 과학적 혁신의 병목 현상을 해결할 수 있는 가능성을 제시했습니다.

경험적 소프트웨어와 점수화 가능한 과제

  • 단순히 기능적인 정확성만을 따지는 일반 소프트웨어와 달리, 사전에 정의된 '품질 점수'를 극대화하는 것을 목표로 하는 '경험적 소프트웨어' 개념을 핵심으로 합니다.
  • 문제 설명, 평가 지표, 학습/검증 데이터를 포함한 '점수화 가능한 과제(Scorable Task)'를 입력받아 최적의 솔루션을 도출합니다.
  • 응용 수학, 공학, 기초 과학 등 정량적 지표로 성과를 측정할 수 있는 광범위한 과학적 난제들을 AI가 해결할 수 있는 형태로 변환합니다.

트리 탐색 기반의 코드 최적화 엔진

  • 알파제로(AlphaZero) 알고리즘에서 영감을 받은 '상한 신뢰 한계(Upper Confidence Bound)' 트리 탐색 전략을 사용하여 수천 개의 코드 변종을 체계적으로 탐색합니다.
  • LLM은 기존 방법론을 재현하거나 재조합하여 새로운 연구 아이디어를 제안하고, 이를 실행 가능한 코드로 직접 구현합니다.
  • 샌드박스 환경에서 구현된 코드를 실행해 성능을 실시간으로 평가하며, 높은 점수를 받은 코드를 기반으로 반복적인 수정을 거쳐 성능을 개선합니다.
  • 모든 출력물은 실행 가능한 코드 형태로 제공되므로, 연구자가 결과를 직접 검증하고 재현하며 해석할 수 있다는 장점이 있습니다.

6개 과학 분야에서의 실전 성능 입증

  • 유전학(Genomics), 공중 보건, 지리 공간 분석, 신경과학, 시계열 예측, 수치 분석 등 서로 다른 특성을 가진 6개 벤치마크에서 전문가 수준의 성능을 입증했습니다.
  • 특히 유전학 분야의 '단일 세포 RNA 시퀀싱 배치 통합' 과제에서는 기존 전문가들이 개발한 수백 개의 도구보다 뛰어난 성능을 보이는 40개의 새로운 방법론을 자동으로 발견했습니다.
  • 제로샷 일반화, 고차원 신호 처리, 시스템 수준의 모델링 등 인간 전문가에게도 도전적인 과제들을 성공적으로 수행하며 AI의 과학적 잠재력을 보여주었습니다.

이 시스템은 과학자가 수동적인 코딩과 디버깅 작업에서 벗어나 더 높은 수준의 가설 수립과 실험 설계에 집중할 수 있도록 돕습니다. 정량적인 평가 지표를 설정할 수 있는 연구 분야라면, AI 기반의 경험적 소프트웨어 생성 도구를 도입함으로써 연구 효율성을 극적으로 높이고 새로운 과학적 발견의 주기를 단축할 수 있을 것입니다.