executive-llm

1 개의 포스트

Towards developing future-ready skills with generative AI (새 탭에서 열림)

구글 리서치는 뉴욕대학교(NYU)와의 협력을 통해 생성형 AI를 활용하여 '미래 역량(future-ready skills)'을 측정하는 연구 프로젝트인 'Vantage'를 공개했습니다. 이 시스템은 AI 아바타와의 대화를 통해 협업, 비판적 사고 등 정량화하기 어려운 인간의 역량을 시뮬레이션 환경에서 평가하며, 연구 결과 AI의 채점 정확도가 인간 전문가 수준에 도달했음을 입증했습니다. Vantage는 현재 구글 랩스(Google Labs)를 통해 영어 버전으로 제공되어 교육 현장에서의 활용 가능성을 탐색하고 있습니다. **미래 역량 측정의 난제와 시뮬레이션의 도입** * 비판적 사고, 협업, 창의적 사고와 같은 미래 역량은 현대 사회에서 필수적이지만, 기존의 표준화된 시험으로는 그 사고 과정이나 상호작용을 포착하기 어렵습니다. * 실제 인간 간의 상호작용을 통해 평가하는 방식은 자원 소모가 크고, 모든 학생에게 동일한 갈등 상황이나 과제를 부여하기 어려워 표준화된 채점이 불가능하다는 한계가 있습니다. * Vantage는 이러한 문제를 해결하기 위해 AI 아바타와 함께 과제를 수행하는 역동적인 다자간 대화 환경(Sandbox)을 구축하여 실제 세계와 유사한 평가 시나리오를 제공합니다. **Executive LLM을 활용한 적응형 평가 엔진** * **Executive LLM의 역할:** 대화의 흐름을 실시간으로 분석하고 평가 루브릭(평가 기준표)에 따라 AI 아바타들을 통제합니다. 사용자가 특정 역량을 드러낼 수 있도록 의도적으로 의견을 반박하거나 갈등을 도입하는 등 동적인 도전을 제시합니다. * **데이터 밀도 최적화:** 단순한 대화에 그치지 않고, 평가에 필요한 핵심 정보를 단시간 내에 이끌어낼 수 있도록 대화를 유도하는 '차세대 적응형 평가 엔진' 역할을 수행합니다. * **AI 평가기(Evaluator):** 대화가 종료되면 AI 평가기가 전체 대화 기록을 분석하여 정밀한 기술 지도(Skill map)와 정성적인 피드백을 제공함으로써, 보이지 않던 인간의 역량 발달 과정을 시각화합니다. **연구를 통한 기술적 타당성 검증** * **대화 유도 능력:** 실험 결과, Executive LLM은 독립적인 AI 모델들보다 대화 흐름을 자연스럽게 유지하면서도 평가에 필요한 기술 관련 정보를 훨씬 더 높은 밀도로 이끌어내는 것으로 나타났습니다. * **채점 정확도:** AI 평가자가 매긴 점수와 NYU 전문가들이 매긴 점수를 비교했을 때, 두 집단 간의 일치도는 인간 전문가들 사이의 일치도와 유사한 수준을 기록했습니다. 이는 AI가 복잡한 인간 역량을 신뢰할 수 있는 수준으로 자동 채점할 수 있음을 의미합니다. * **확장성:** 구글은 스타트업 OpenMic과의 협력을 통해 창의성 및 영어 영문학 과제 등 다른 교과 영역에서도 AI 평가기의 성능을 확인하며 적용 범위를 넓히고 있습니다. **실용적인 시사점** Vantage는 교육자가 학생들의 소프트 스킬을 객관적으로 파악하고 이를 기반으로 맞춤형 수업을 설계할 수 있도록 돕는 강력한 도구가 될 수 있습니다. 기술의 발전으로 정답이 없는 복합적인 문제 해결 능력이 중요해진 만큼, 이러한 AI 기반 시뮬레이션 평가 도구를 학습 과정에 도입하여 학생들에게 안전한 실패와 성장의 기회를 제공할 것을 권장합니다.