long-context-understanding

1 개의 포스트

과학적 문제 해결에 대한 LL (새 탭에서 열림)

구글 리서치는 대규모 언어 모델(LLM)이 실제 과학 연구 워크플로우에서 복잡한 문제를 해결할 수 있는지를 측정하기 위한 새로운 벤치마크인 'CURIE'를 공개했습니다. 기존의 과학 벤치마크들이 단답형 지식 회상에 치중했던 것과 달리, CURIE는 수 만 단어에 달하는 전문 논문 전체를 읽고 정보를 추출하며 다단계 추론을 수행하는 능력을 평가합니다. 이는 AI가 단순한 지식 검색 도구를 넘어 과학자의 실질적인 연구 보조자로 진화하는 과정에서 필수적인 평가 지표가 될 것입니다. **CURIE: 과학적 추론 및 긴 문맥 이해를 위한 다학제 벤치마크** * 재료 과학, 응집 물질 물리학, 양자 컴퓨팅, 지리 공간 분석, 생물 다양성, 단백질 등 6개 과학 분야의 전문 지식을 다룹니다. * 평균 15,000단어에 달하는 전문 연구 논문을 입력값으로 사용하여, 정보 추출, 개념 추적, 대수적 조작, 다중 모드 이해 등 10가지의 구체적인 태스크를 수행합니다. * 단순한 선택지형 문항이 아닌 실제 연구 과정에서 발생하는 워크플로우를 반영하며, 정답 데이터는 평균 954단어에 달하는 상세한 설명을 포함합니다. * 각 도메인의 전문가들이 과제 정의, 정답 생성, 난이도 등급 부여 등에 직접 참여하여 벤치마크의 정확성과 전문성을 확보했습니다. **SPIQA 및 FEABench를 통한 시각적 데이터와 도구 활용 평가** * SPIQA 데이터셋은 모델이 과학 논문에 포함된 복잡한 그림(Figure)과 표(Table)의 정보를 바탕으로 질의응답을 수행하는 멀티모달 능력을 측정합니다. * FEABench는 LLM 에이전트가 유한요소해석(FEA) 소프트웨어를 사용하여 물리, 수학, 공학적 문제를 시뮬레이션하고 해결할 수 있는지 평가하는 도구 활용 능력을 테스트합니다. * 이러한 추가 벤치마크들은 텍스트 기반 추론을 넘어 실험 데이터 해석과 시뮬레이션 도구 실행이라는 실제 과학적 방법론을 포괄합니다. **프로그래밍 방식과 모델 기반 평가의 결합** * 과학적 답변의 특성상 정답 형식이 JSON, Latex 수식, YAML 등 매우 다양하기 때문에, ROUGE-L이나 IoU(Intersection-over-Union) 같은 전통적인 프로그래밍 방식의 지표를 활용합니다. * 자유 형식의 서술형 답변을 평가하기 위해 'LLM-as-a-judge' 방식을 병행하여, 전문가의 주관적 평가와 높은 상관관계를 가지는 정밀한 채점 시스템을 구축했습니다. * Gemini 1.5 Pro와 같은 최신 모델들에 대한 평가 결과, 복잡한 과학적 워크플로우 처리 능력이 크게 향상되었으나 여전히 심층적인 추론 영역에서는 개선의 여지가 있음이 확인되었습니다. CURIE와 관련 데이터셋은 과학 분야 LLM의 성능을 객관적으로 측정하는 데 중요한 도구가 될 것입니다. 연구자들은 모델이 장문의 전문 텍스트뿐만 아니라 수식과 시각적 데이터를 통합적으로 이해하고 도구를 활용할 수 있도록 개발 방향을 설정해야 하며, CURIE가 제공하는 복합적인 태스크를 통해 모델의 한계를 점검하고 실제 연구 현장에 적용 가능한 AI를 구축할 수 있습니다.