benchmarking

6 개의 포스트

파형에서 통 (새 탭에서 열림)

Google Research는 음성 지능 모델의 성능을 정밀하게 측정하고 발전시키기 위한 통합 오픈소스 플랫폼인 MSEB(Massive Sound Embedding Benchmark)를 공개했습니다. 이 벤치마크는 검색, 분류, 재구성 등 8가지 핵심 능력을 표준화하여 파편화된 기존 사운드 AI 연구를 통합하고, 범용 사운드 임베딩이 도달해야 할 기술적 목표치를 제시합니다. 초기 실험 결과 현재의 기술력은 범용성 측면에서 개선의 여지가 크며, MSEB는 이를 극복하여 인간 수준의 청각 지능을 구현하기 위한 핵심 지표로 활용될 전망입니다. ### 다각적 평가를 위한 고품질 데이터 세트 구축 * **SVQ(Simple Voice Questions) 데이터**: 17개 언어와 26개 지역의 특성을 반영한 177,352개의 짧은 음성 질의 데이터로, 화자 속성과 시간 정렬 데이터 등 풍부한 메타데이터를 포함합니다. * **실제 소음 환경 반영**: 조용한 상태, 배경 대화, 교통 소음, 미디어 소음 등 네 가지 실제 음향 환경을 시뮬레이션하여 모델의 견고성을 테스트합니다. * **도메인 확장성**: Speech-MASSIVE(의도 분류), FSD50K(환경음 인식), BirdSet(생물 음향학) 등 공공 데이터를 통합하여 인간의 언어를 넘어 자연계의 소리까지 아우르는 범용성을 확보했습니다. ### 청각 지능의 8가지 핵심 능력 정의 * **정보 접근(검색, 추론, 재순위화)**: 음성 질의를 통해 지식 베이스에서 관련 문서를 찾거나(검색), 문서 내 정답을 도출(추론)하고, 모호한 음성 인식 후보군을 원본 의도에 맞게 재정렬(재순위화)하는 능력을 평가합니다. * **기초 인지(분류, 전사, 세분화)**: 소리의 범주와 화자 속성을 분류하고, 음성을 텍스트로 변환(전사)하며, 특정 용어가 나타나는 정확한 시점을 타임스탬프로 파악(세분화)하는 기본 성능을 측정합니다. * **조직 및 생성(클러스터링, 재구성)**: 사전 정의된 레이블 없이 유사한 속성의 음성을 그룹화(클러스터링)하고, 중간 표현체인 임베딩으로부터 원본 오디오 파형을 얼마나 정밀하게 복원(재구성)할 수 있는지 확인합니다. ### 범용 임베딩 성능 분석과 연구 방향 * **성능 여유(Headroom) 확인**: 현재의 사운드 임베딩 기술이 모든 도메인에서 완벽하지 않다는 점을 시사하며, 최신 모델들도 여전히 성능 향상의 여지가 큼을 객관적인 수치로 입증했습니다. * **표준화된 평가 구조**: 단일 모달 모델부터 복합적인 멀티모달 모델까지 동일한 기준에서 성능을 비교할 수 있는 유연하고 확장 가능한 프레임워크를 제공합니다. * **미래 확장성**: 향후 음악 데이터 세트 추가 및 이미지와 결합된 멀티모달 작업으로 영역을 확장하여 실제 환경에서 활용 가능한 지능형 에이전트 개발을 지원할 예정입니다. MSEB는 사운드 기반 AI 연구가 직면한 파편화 문제를 해결하고 차세대 청각 지능을 위한 명확한 이정표를 제시합니다. 연구자들은 이 오픈소스 벤치마크를 활용해 모델의 범용성을 검증하고, 특히 복잡한 소음 환경에서의 데이터 해석 능력을 높이는 데 집중함으로써 더 자연스럽고 지능적인 음성 인터페이스를 구축할 수 있습니다.

AfriMed-QA: 글로벌 (새 탭에서 열림)

Google Research와 아프리카 현지 파트너들은 아프리카 보건 의료 맥락에 특화된 최초의 대규모 의료 벤치마크 데이터셋인 'AfriMed-QA'를 개발했습니다. 이 데이터셋은 기존 서구권 중심의 의료 벤치마크가 반영하지 못했던 아프리카 특유의 질병 분포, 언어적 특성, 문화적 배경을 포함하여 LLM의 실질적인 성능을 평가하도록 설계되었습니다. 연구 결과 대규모 모델일수록 높은 정확도를 보였으며, 이 데이터셋은 Google의 최신 의료 특화 모델인 MedGemma 학습에도 활용되었습니다. ### AfriMed-QA 데이터셋의 구성과 특징 * **데이터 규모 및 구성**: 약 15,000개의 임상 질문과 답변으로 이루어져 있으며, 4,000개 이상의 전문가용 객관식(MCQ), 1,200개 이상의 단답형(SAQ), 10,000개의 소비자 질의(CQ)를 포함합니다. * **광범위한 출처**: 아프리카 12개국, 60개 이상의 의과대학에서 온 621명의 기여자가 참여하여 데이터를 구축했습니다. * **전문 분야 포괄**: 산부인과, 신경외과, 내과, 응급의학, 전염병 등 총 32개의 세부 의료 전공 분야를 망라합니다. * **수집 플랫폼**: Intron Health가 개발한 웹 기반 크라우드소싱 플랫폼을 활용하여 아프리카 현지의 다양한 억양과 다국어 환경을 반영할 수 있는 인터페이스를 구축했습니다. ### 지역적 맥락 반영의 필요성 및 가치 * **분포 변화 대응**: 기존 USMLE MedQA와 같은 데이터셋은 서구 중심의 데이터에 치우쳐 있어, 아프리카 지역의 질병 패턴이나 증상의 맥락적 차이를 평가하는 데 한계가 있었습니다. * **언어적 다양성**: 영어를 사용하더라도 지역마다 다른 언어적 변종(linguistics)과 현지 지식을 정확히 이해해야 실질적인 의료 지원이 가능합니다. * **사회적 영향력**: 본 연구는 저자원 환경에서 LLM이 임상 진단 정확도를 높이고 다국어 의사결정 지원 도구로 기능할 수 있음을 입증하여 ACL 2025에서 '최우수 사회적 영향 논문상'을 수상했습니다. ### LLM 성능 평가 및 시사점 * **평가 대상**: 소형부터 대형 모델에 이르는 총 30개의 일반 및 바이오메디컬 LLM(오픈 소스 및 폐쇄형 포함)을 대상으로 평가를 진행했습니다. * **평가 방법론**: 객관식은 정답 선택 정확도를 측정하고, 단답형은 참조 답변과의 문장 수준 중첩도 및 의미적 유사성을 분석했습니다. * **모델 크기와 성능의 상관관계**: 대규모 모델이 소형 모델보다 AfriMed-QA에서 더 높은 성능을 보였는데, 이는 온디바이스(On-device)나 엣지 배포가 필요한 저자원 환경에서 소형 전문 모델의 개선이 필요함을 시사합니다. ### 데이터 공개 및 향후 활용 * **오픈 소스화**: 아프리카 보건 의료 AI 발전을 위해 벤치마크 데이터셋은 Hugging Face에, 평가 코드는 GitHub에 전면 공개되었습니다. * **실제 모델 적용**: 이 데이터셋은 Google의 최신 의료 특화 오픈 모델인 'MedGemma'의 학습 및 검증에 직접적으로 활용되었습니다. * **확장성**: 본 프로젝트에서 사용된 데이터 수집 및 평가 방법론은 디지털화된 벤치마크가 부족한 다른 지역(locale)에도 확장 적용될 수 있는 가이드라인을 제시합니다.

글로벌 헬스를 위한 LL (새 탭에서 열림)

구글 리서치는 전 세계적인 보건 불평등을 해소하고 저개발 지역의 의료 지원을 강화하기 위해, 열대 및 감염성 질환(TRINDs)에 특화된 LLM 벤치마킹 데이터셋과 평가 파이프라인을 개발했습니다. 연구 결과, 기존 의료 시험(USMLE)에서 우수한 성적을 거둔 모델들도 특정 지역의 질병 데이터나 맥락 정보가 부족할 경우 성능이 현저히 저하되는 '분포 변화' 문제를 겪는 것으로 나타났습니다. 이 연구는 LLM이 실제 글로벌 보건 현장에서 진단 보조 도구로 활용되기 위해서는 증상뿐만 아니라 지역, 위험 요인 등 구체적인 컨텍스트를 정밀하게 학습해야 함을 시사합니다. ### TRINDs 데이터셋 구축과 합성 페르소나 기술 * WHO, CDC 등 신뢰할 수 있는 기관의 데이터를 기반으로 50가지 질병에 대한 '시드 페르소나' 템플릿을 생성했습니다. * LLM 프롬프팅을 활용해 증상, 인구통계학적 특성, 임상 및 소비자 관점의 표현, 언어(영어 및 프랑스어) 등을 변주하여 11,000개 이상의 합성 페르소나 데이터셋을 구축했습니다. * 단순한 질병 정의를 넘어 환자의 생활 방식, 위치 정보, 위험 요인 등 실제 의료 현장에서 발생할 수 있는 복합적인 시나리오를 포함했습니다. ### 모델 성능과 컨텍스트의 상관관계 * Gemini 1.5 모델을 대상으로 평가한 결과, 증상 정보만 제공했을 때보다 위치 정보(Location)와 특정 위험 요인(Risk factors)을 결합했을 때 진단 정확도가 가장 높게 나타났습니다. * 일반적인 증상만으로는 정확한 진단에 한계가 있으며, 질병이 발생하는 지역적 맥락이 LLM의 추론 성능을 최적화하는 핵심 요소임을 확인했습니다. * 이는 LLM이 의료 지원 도구로 작동할 때 환자의 거주지나 여행 기록 같은 외부 환경 데이터를 통합하는 것이 필수적임을 뒷받침합니다. ### 편향성 및 언어적 다양성 분석 * 인종이나 성별 언급이 모델 성능에 미치는 통계적으로 유의미한 차이는 발견되지 않았으나, 언어에 따른 차이는 존재했습니다. * 시드 데이터를 프랑스어로 번역하여 테스트했을 때 영어에 비해 성능이 낮게 나타나, 비영어권 지역에서의 활용을 위해 다국어 성능 개선이 필요함을 입증했습니다. * '반사실적 위치(Counterfactual location)' 실험을 통해 질병 발생 지역을 임의로 변경했을 때 모델의 판단이 흔들리는 현상을 확인했으며, 이는 모델이 특정 질병과 지역을 고정관념적으로 연결하고 있을 가능성을 시사합니다. 의료용 AI가 전 세계적으로 공정하게 기여하기 위해서는 표준화된 의료 시험 점수를 넘어, 지역 특화된 데이터셋을 통한 정밀한 검증이 선행되어야 합니다. 특히 저의료 지역의 보건 요원들이 LLM을 신뢰할 수 있는 도구로 쓰기 위해서는 지역적 맥락(Context-aware)을 반영한 모델 튜닝과 벤치마킹이 지속적으로 이루어져야 할 것입니다.

ZAPBench를 통한 (새 탭에서 열림)

구글 리서치와 HHMI Janelia, 하버드 대학교 연구진은 제브라피쉬 유충의 뇌 전체 활동을 단일 세포 수준에서 기록한 데이터셋이자 벤치마크인 'ZAPBench'를 공개했습니다. 이 프로젝트는 뇌의 구조적 연결망인 커넥토믹스와 실제 신경세포의 동적 활동 데이터를 결합하여, 척추동물의 뇌가 복잡한 행동을 어떻게 생성하는지 정밀하게 모델링하는 것을 목표로 합니다. 연구자들은 ZAPBench의 오픈소스 데이터와 평가 표준을 활용해 신경 활동 예측 모델의 정확도를 객관적으로 비교하고 개선할 수 있습니다. **커넥토믹스와 동적 활동 데이터의 통합** * 기존의 커넥토믹스는 신경세포 간의 정적인 연결 구조를 파악하는 데 집중했으나, 실제 뇌의 작동 원리를 이해하려면 시간 흐름에 따른 동적인 활동 정보가 필수적입니다. * ZAPBench는 약 7만 개의 신경세포로 구성된 제브라피쉬 유충의 뇌 전체 활동을 기록하며, 현재 진행 중인 전체 커넥토미 도표 작성 작업과 결합되어 구조와 기능의 상관관계를 직접 조사할 수 있게 합니다. * 이는 쥐 시각 피질의 극히 일부(0.1% 미만)만을 다루던 기존 벤치마크와 달리, 척추동물 뇌 전체를 포괄한다는 점에서 차별화됩니다. **라이트 시트 현미경과 가상 현실을 이용한 데이터 수집** * 몸 전체가 투명하여 뇌 활동 관찰에 용이한 6일 차 제브라피쉬 유충을 실험 대상으로 선정했습니다. * 신경 세포가 활성화될 때 녹색 빛을 내는 칼슘 지표인 'GCaMP'를 활용하고, 라이트 시트 현미경(Light Sheet Microscope)으로 뇌 전체를 얇은 단면 단위로 스캔하여 3D 이미지를 생성했습니다. * 가상 현실 환경에서 물의 흐름, 명암 변화 등 9가지 시각 자극을 제공함과 동시에, 꼬리에 부착된 전극으로 근육 활동을 기록하여 자극-뇌 활동-행동 사이의 상관관계를 2시간 동안 정밀하게 측정했습니다. **예측 모델 평가를 위한 네 가지 핵심 과제** * **자기회귀(Autoregressive) 예측**: 과거의 신경 활동 데이터를 기반으로 미래의 활동 패턴을 얼마나 잘 예측하는지 평가합니다. * **자극 조건부(Stimulus-conditioned) 예측**: 가상 현실을 통해 제공된 시각적 자극에 대해 뇌가 어떻게 반응할지 모델링합니다. * **행동 조건부(Behavior-conditioned) 예측**: 물고기의 특정 행동(꼬리 움직임 등)과 연관된 뇌 활동의 변화를 예측합니다. * **개체 간(Cross-individual) 예측**: 한 마리의 물고기 데이터로 학습된 모델이 다른 개체의 뇌 활동에도 보편적으로 적용될 수 있는지 테스트합니다. ZAPBench는 뇌 활동 모델링을 위한 표준화된 플랫폼을 제공함으로써 신경과학 분야의 '데이터 기반 혁신'을 가속화할 것으로 기대됩니다. 연구자들은 공개된 데이터셋과 튜토리얼을 통해 자신의 모델을 검증할 수 있으며, 이는 향후 생물학적으로 타당한 인공지능 구조를 설계하거나 복잡한 뇌 질환의 메커니즘을 이해하는 데 중요한 밑거름이 될 것입니다.

과학적 문제 해결에 대한 LL (새 탭에서 열림)

구글 리서치는 대규모 언어 모델(LLM)이 실제 과학 연구 워크플로우에서 복잡한 문제를 해결할 수 있는지를 측정하기 위한 새로운 벤치마크인 'CURIE'를 공개했습니다. 기존의 과학 벤치마크들이 단답형 지식 회상에 치중했던 것과 달리, CURIE는 수 만 단어에 달하는 전문 논문 전체를 읽고 정보를 추출하며 다단계 추론을 수행하는 능력을 평가합니다. 이는 AI가 단순한 지식 검색 도구를 넘어 과학자의 실질적인 연구 보조자로 진화하는 과정에서 필수적인 평가 지표가 될 것입니다. **CURIE: 과학적 추론 및 긴 문맥 이해를 위한 다학제 벤치마크** * 재료 과학, 응집 물질 물리학, 양자 컴퓨팅, 지리 공간 분석, 생물 다양성, 단백질 등 6개 과학 분야의 전문 지식을 다룹니다. * 평균 15,000단어에 달하는 전문 연구 논문을 입력값으로 사용하여, 정보 추출, 개념 추적, 대수적 조작, 다중 모드 이해 등 10가지의 구체적인 태스크를 수행합니다. * 단순한 선택지형 문항이 아닌 실제 연구 과정에서 발생하는 워크플로우를 반영하며, 정답 데이터는 평균 954단어에 달하는 상세한 설명을 포함합니다. * 각 도메인의 전문가들이 과제 정의, 정답 생성, 난이도 등급 부여 등에 직접 참여하여 벤치마크의 정확성과 전문성을 확보했습니다. **SPIQA 및 FEABench를 통한 시각적 데이터와 도구 활용 평가** * SPIQA 데이터셋은 모델이 과학 논문에 포함된 복잡한 그림(Figure)과 표(Table)의 정보를 바탕으로 질의응답을 수행하는 멀티모달 능력을 측정합니다. * FEABench는 LLM 에이전트가 유한요소해석(FEA) 소프트웨어를 사용하여 물리, 수학, 공학적 문제를 시뮬레이션하고 해결할 수 있는지 평가하는 도구 활용 능력을 테스트합니다. * 이러한 추가 벤치마크들은 텍스트 기반 추론을 넘어 실험 데이터 해석과 시뮬레이션 도구 실행이라는 실제 과학적 방법론을 포괄합니다. **프로그래밍 방식과 모델 기반 평가의 결합** * 과학적 답변의 특성상 정답 형식이 JSON, Latex 수식, YAML 등 매우 다양하기 때문에, ROUGE-L이나 IoU(Intersection-over-Union) 같은 전통적인 프로그래밍 방식의 지표를 활용합니다. * 자유 형식의 서술형 답변을 평가하기 위해 'LLM-as-a-judge' 방식을 병행하여, 전문가의 주관적 평가와 높은 상관관계를 가지는 정밀한 채점 시스템을 구축했습니다. * Gemini 1.5 Pro와 같은 최신 모델들에 대한 평가 결과, 복잡한 과학적 워크플로우 처리 능력이 크게 향상되었으나 여전히 심층적인 추론 영역에서는 개선의 여지가 있음이 확인되었습니다. CURIE와 관련 데이터셋은 과학 분야 LLM의 성능을 객관적으로 측정하는 데 중요한 도구가 될 것입니다. 연구자들은 모델이 장문의 전문 텍스트뿐만 아니라 수식과 시각적 데이터를 통합적으로 이해하고 도구를 활용할 수 있도록 개발 방향을 설정해야 하며, CURIE가 제공하는 복합적인 태스크를 통해 모델의 한계를 점검하고 실제 연구 현장에 적용 가능한 AI를 구축할 수 있습니다.

ECLeKTic: 거대 (새 탭에서 열림)

Google Research가 발표한 ECLeKTic은 대규모 언어 모델(LLM)이 특정 언어로 학습한 지식을 다른 언어로 얼마나 잘 전달하는지 평가하기 위해 설계된 새로운 벤치마크입니다. 이 데이터셋은 특정 언어의 위키피디아에만 존재하는 고유 정보를 활용하여, 모델이 소스 언어에서 습득한 지식을 12개의 대상 언어에서 폐쇄형 질문 답변(Closed-book QA) 형식으로 인출할 수 있는지 측정합니다. 최신 모델인 Gemini 2.5 Pro가 52.6%의 성공률을 기록하며 가장 우수한 성능을 보였으나, 이는 여전히 언어 간 지식 전이 능력을 개선할 여지가 많음을 시사합니다. **언어 간 지식 접근성 격차의 문제** * 인간은 여러 언어를 구사할 때 언어와 상관없이 동일한 지식에 접근할 수 있지만, 현재의 LLM은 특정 언어(예: 인도네시아어)로 질문했을 때만 답변하고 다른 언어(예: 독일어)로 질문하면 답하지 못하는 지식의 파편화 현상을 보입니다. * 이러한 격차는 정보가 적은 언어 사용자들의 지식 접근권을 제한할 뿐만 아니라, 정보가 많은 언어 사용자들 역시 전 세계의 다양한 지식을 활용하지 못하게 만듭니다. * ECLeKTic은 모델의 내부 지식만을 이용하는 블랙박스 평가 방식을 채택하여, 모델의 내부 구조를 알 수 없는 상용 모델(Proprietary models)까지도 쉽게 평가할 수 있도록 설계되었습니다. **데이터셋 구성 및 검증 프로세스** * 한국어, 영어, 인도네시아어, 힌디어 등 총 12개 언어를 포함하며, 특정 언어의 위키피디아에만 단독으로 존재하는 문서를 기반으로 384개의 고유 질문과 4,224개의 번역된 예시를 생성했습니다. * 질문의 타당성을 높이기 위해 원어민 검수자들이 '폐쇄형 질문 답변 가능 여부'와 '특정 문화권의 고유 지식 여부'를 엄격히 필터링했습니다. * '탈맥락화(Decontextualization)' 과정을 통해 질문 내 모호한 대명사나 고유 명사를 구체화(예: "대법원"을 "이스라엘 대법원"으로 수정)하여 번역된 언어에서도 충분히 답변 가능한 형태를 갖추었습니다. * 자동 번역 후 다시 원어민이 번역의 정확성을 검증하고, 원어의 의미가 훼손되어 번역이 불가능한 사례는 데이터셋에서 제외했습니다. **벤치마크 결과 및 성능 지표** * 핵심 지표인 '전체 성공률(Overall success)'은 모델이 소스 언어와 대상 언어 모두에서 질문에 올바르게 답한 비율을 측정합니다. * 8개의 주요 LLM을 테스트한 결과, Gemini 2.0 Pro는 41.6%의 성공률을 보였으며, 최신 버전인 Gemini 2.5 Pro는 52.6%를 달성하여 성능 개선을 입증했습니다. * 결과적으로 최고 수준의 모델조차 절반 수준의 성공률에 머물러 있어, 모든 사용자가 언어 장벽 없이 공평하게 정보에 접근할 수 있는 모델을 만들기 위한 추가적인 연구가 필요함을 보여줍니다. ECLeKTic은 Kaggle을 통해 오픈 소스로 공개되어 있으며, 개발자들은 이를 활용해 자신들의 모델이 가진 다국어 지식 전이 성능을 정밀하게 측정하고 개선하는 지표로 삼을 수 있습니다.