code-optimization

2 개의 포스트

AI 기반 실증 (새 탭에서 열림)

구글 리서치가 과학적 발견을 가속화하기 위해 '경험적 소프트웨어(Empirical Software)'를 자동으로 설계하고 최적화하는 새로운 AI 시스템을 공개했습니다. 이 시스템은 제미나이(Gemini) 모델과 트리 탐색 알고리즘을 결합하여 과학적 가설을 검증하는 맞춤형 코드를 생성하며, 유전학부터 시계열 예측까지 6개 분야의 복잡한 벤치마크에서 전문가 수준의 성과를 거두었습니다. 이를 통해 기존에 수개월이 걸리던 연구 탐색 과정을 단 몇 시간으로 단축하여 과학적 혁신의 병목 현상을 해결할 수 있는 가능성을 제시했습니다. ### 경험적 소프트웨어와 점수화 가능한 과제 * 단순히 기능적인 정확성만을 따지는 일반 소프트웨어와 달리, 사전에 정의된 '품질 점수'를 극대화하는 것을 목표로 하는 '경험적 소프트웨어' 개념을 핵심으로 합니다. * 문제 설명, 평가 지표, 학습/검증 데이터를 포함한 '점수화 가능한 과제(Scorable Task)'를 입력받아 최적의 솔루션을 도출합니다. * 응용 수학, 공학, 기초 과학 등 정량적 지표로 성과를 측정할 수 있는 광범위한 과학적 난제들을 AI가 해결할 수 있는 형태로 변환합니다. ### 트리 탐색 기반의 코드 최적화 엔진 * 알파제로(AlphaZero) 알고리즘에서 영감을 받은 '상한 신뢰 한계(Upper Confidence Bound)' 트리 탐색 전략을 사용하여 수천 개의 코드 변종을 체계적으로 탐색합니다. * LLM은 기존 방법론을 재현하거나 재조합하여 새로운 연구 아이디어를 제안하고, 이를 실행 가능한 코드로 직접 구현합니다. * 샌드박스 환경에서 구현된 코드를 실행해 성능을 실시간으로 평가하며, 높은 점수를 받은 코드를 기반으로 반복적인 수정을 거쳐 성능을 개선합니다. * 모든 출력물은 실행 가능한 코드 형태로 제공되므로, 연구자가 결과를 직접 검증하고 재현하며 해석할 수 있다는 장점이 있습니다. ### 6개 과학 분야에서의 실전 성능 입증 * 유전학(Genomics), 공중 보건, 지리 공간 분석, 신경과학, 시계열 예측, 수치 분석 등 서로 다른 특성을 가진 6개 벤치마크에서 전문가 수준의 성능을 입증했습니다. * 특히 유전학 분야의 '단일 세포 RNA 시퀀싱 배치 통합' 과제에서는 기존 전문가들이 개발한 수백 개의 도구보다 뛰어난 성능을 보이는 40개의 새로운 방법론을 자동으로 발견했습니다. * 제로샷 일반화, 고차원 신호 처리, 시스템 수준의 모델링 등 인간 전문가에게도 도전적인 과제들을 성공적으로 수행하며 AI의 과학적 잠재력을 보여주었습니다. 이 시스템은 과학자가 수동적인 코딩과 디버깅 작업에서 벗어나 더 높은 수준의 가설 수립과 실험 설계에 집중할 수 있도록 돕습니다. 정량적인 평가 지표를 설정할 수 있는 연구 분야라면, AI 기반의 경험적 소프트웨어 생성 도구를 도입함으로써 연구 효율성을 극적으로 높이고 새로운 과학적 발견의 주기를 단축할 수 있을 것입니다.

MLE-STAR: 최첨단 (새 탭에서 열림)

MLE-STAR는 웹 검색 기능과 정밀한 코드 블록 최적화 메커니즘을 결합한 차세대 머신러닝 엔지니어링 에이전트로, 복잡한 ML 파이프라인 구축 과정을 자동화합니다. 기존 에이전트들이 LLM의 사전 지식에만 의존하거나 코드 전체를 한 번에 수정하려 했던 한계를 극복하기 위해, 성능에 가장 큰 영향을 미치는 특정 구성 요소를 식별하고 이를 집중적으로 개선하는 방식을 채택했습니다. 그 결과 MLE-Bench-Lite의 Kaggle 경진 대회에서 63%의 메달 획득률을 기록하며 기존 기술들을 압도하는 성능을 증명했습니다. **웹 검색을 통한 최신 기법 도입 및 초기 솔루션 구축** * LLM의 내장된 지식에만 의존할 때 발생하는 특정 라이브러리(예: scikit-learn) 편향 문제를 해결하기 위해 실시간 웹 검색 기능을 활용합니다. * 주어진 과제와 데이터 모달리티에 가장 적합한 최신(State-of-the-art) 모델과 방법론을 검색하여 초기 솔루션 코드를 생성하는 기반으로 삼습니다. **어블레이션 연구 기반의 타겟 코드 블록 정제** * 전체 파이프라인 코드를 무작위로 수정하는 대신, '어블레이션 연구(Ablation Study)'를 수행하여 피처 엔지니어링이나 모델 구조 등 성능 기여도가 가장 높은 특정 코드 블록을 찾아냅니다. * 식별된 핵심 블록에 대해 이전 시도의 실행 결과와 피드백을 반영하며 집중적인 반복 실험을 수행함으로써, 특정 파이프라인 단계에서의 최적화를 심도 있게 진행합니다. **지능형 솔루션 앙상블 전략** * 단순한 성능 기반 투표 방식에서 벗어나, 에이전트가 스스로 여러 후보 솔루션을 병합할 수 있는 최적의 앙상블 전략을 직접 설계하고 제안합니다. * 병렬로 생성된 다양한 해결책들을 유기적으로 결합하며, 이 과정 또한 반복적인 피드백 루프를 통해 지속적으로 개선하여 최종 예측 성능을 극대화합니다. **시스템 안정성 및 신뢰성 강화를 위한 모듈** * **디버깅 에이전트:** 파이썬 스크립트 실행 중 발생하는 트레이스백(Traceback) 오류를 분석하고 즉각적으로 코드를 교정합니다. * **데이터 누수(Data Leakage) 체크:** 테스트 데이터의 정보가 학습 과정에 유입되는 위험을 방지하기 위해 실행 전 스크립트의 논리적 무결성을 검증합니다. * **데이터 사용 확인 도구:** 에이전트가 CSV와 같은 단순한 데이터만 사용하고 다른 중요한 데이터 소스를 누락하지 않도록 모든 제공된 데이터를 활용하는지 감시합니다. MLE-STAR는 단순한 코드 생성을 넘어 데이터 분석, 전략 수립, 오류 수정 및 검증에 이르는 머신러닝 엔지니어링의 전 과정을 수행할 수 있음을 보여줍니다. 특히 Kaggle과 같은 실제 경쟁 환경에서 높은 성과를 낸 만큼, 향후 기업 현장에서 복잡한 데이터 파이프라인을 효율적으로 구축하고 실험 비용을 절감하는 데 실질적인 도움을 줄 것으로 기대됩니다.