ECLeKTic: 거대 (새 탭에서 열림)
Google Research가 발표한 ECLeKTic은 대규모 언어 모델(LLM)이 특정 언어로 학습한 지식을 다른 언어로 얼마나 잘 전달하는지 평가하기 위해 설계된 새로운 벤치마크입니다. 이 데이터셋은 특정 언어의 위키피디아에만 존재하는 고유 정보를 활용하여, 모델이 소스 언어에서 습득한 지식을 12개의 대상 언어에서 폐쇄형 질문 답변(Closed-book QA) 형식으로 인출할 수 있는지 측정합니다. 최신 모델인 Gemini 2.5 Pro가 52.6%의 성공률을 기록하며 가장 우수한 성능을 보였으나, 이는 여전히 언어 간 지식 전이 능력을 개선할 여지가 많음을 시사합니다.
언어 간 지식 접근성 격차의 문제
- 인간은 여러 언어를 구사할 때 언어와 상관없이 동일한 지식에 접근할 수 있지만, 현재의 LLM은 특정 언어(예: 인도네시아어)로 질문했을 때만 답변하고 다른 언어(예: 독일어)로 질문하면 답하지 못하는 지식의 파편화 현상을 보입니다.
- 이러한 격차는 정보가 적은 언어 사용자들의 지식 접근권을 제한할 뿐만 아니라, 정보가 많은 언어 사용자들 역시 전 세계의 다양한 지식을 활용하지 못하게 만듭니다.
- ECLeKTic은 모델의 내부 지식만을 이용하는 블랙박스 평가 방식을 채택하여, 모델의 내부 구조를 알 수 없는 상용 모델(Proprietary models)까지도 쉽게 평가할 수 있도록 설계되었습니다.
데이터셋 구성 및 검증 프로세스
- 한국어, 영어, 인도네시아어, 힌디어 등 총 12개 언어를 포함하며, 특정 언어의 위키피디아에만 단독으로 존재하는 문서를 기반으로 384개의 고유 질문과 4,224개의 번역된 예시를 생성했습니다.
- 질문의 타당성을 높이기 위해 원어민 검수자들이 '폐쇄형 질문 답변 가능 여부'와 '특정 문화권의 고유 지식 여부'를 엄격히 필터링했습니다.
- '탈맥락화(Decontextualization)' 과정을 통해 질문 내 모호한 대명사나 고유 명사를 구체화(예: "대법원"을 "이스라엘 대법원"으로 수정)하여 번역된 언어에서도 충분히 답변 가능한 형태를 갖추었습니다.
- 자동 번역 후 다시 원어민이 번역의 정확성을 검증하고, 원어의 의미가 훼손되어 번역이 불가능한 사례는 데이터셋에서 제외했습니다.
벤치마크 결과 및 성능 지표
- 핵심 지표인 '전체 성공률(Overall success)'은 모델이 소스 언어와 대상 언어 모두에서 질문에 올바르게 답한 비율을 측정합니다.
- 8개의 주요 LLM을 테스트한 결과, Gemini 2.0 Pro는 41.6%의 성공률을 보였으며, 최신 버전인 Gemini 2.5 Pro는 52.6%를 달성하여 성능 개선을 입증했습니다.
- 결과적으로 최고 수준의 모델조차 절반 수준의 성공률에 머물러 있어, 모든 사용자가 언어 장벽 없이 공평하게 정보에 접근할 수 있는 모델을 만들기 위한 추가적인 연구가 필요함을 보여줍니다.
ECLeKTic은 Kaggle을 통해 오픈 소스로 공개되어 있으며, 개발자들은 이를 활용해 자신들의 모델이 가진 다국어 지식 전이 성능을 정밀하게 측정하고 개선하는 지표로 삼을 수 있습니다.