llm-evaluation

5 개의 포스트

AI 에이전트가 실제 Stripe (새 탭에서 열림)

최근 LLM은 코드 스니펫 작성을 넘어 파일 단위의 리팩토링까지 수행할 정도로 발전했으나, 실제 소프트웨어 프로젝트를 자율적으로 관리하는 능력은 여전히 검증이 필요한 영역입니다. Stripe는 에이전트가 100%의 정확도를 요구하는 결제 통합 작업을 완수할 수 있는지 확인하기 위해, 실제 운영 환경과 유사한 11개의 벤치마크 환경을 구축하여 성능을 측정했습니다. 연구 결과, 최신 모델들은 UI 탐색 및 복잡한 API 구성에서 기대 이상의 성과를 보였으나, 모호한 상황에서의 의사결정이나 완벽한 엔드 투 엔드 검증에서는 여전히 한계를 드러냈습니다. **Stripe 통합 벤치마크의 설계와 구조** * **다층적 환경 구축**: 실제 비즈니스 시나리오를 반영하여 백엔드 전용 작업, 풀스택 작업, 그리고 특정 기능(Checkout, Billing 등)을 깊게 파고드는 'Gym' 문제 세트로 구성된 11개의 환경을 설계했습니다. * **에이전트 실행 도구**: 모든 모델에 일관된 환경을 제공하기 위해 'goose' 기반의 하네스를 사용했으며, MCP(Model Context Protocol) 서버를 통해 터미널, 브라우저, Stripe 전용 검색 도구에 대한 접근 권한을 부여했습니다. * **결과 검증 시스템(Graders)**: 단순히 코드의 형태를 보는 것이 아니라, API 호출 및 자동화된 UI 테스트를 통해 소프트웨어의 동작을 결정론적으로 검증하며, 생성된 Stripe API 객체의 상태까지 직접 확인하여 정확도를 측정합니다. **에이전트의 뛰어난 실전 적응력과 성과** * **기대 이상의 풀스택 수행 능력**: 모델들은 단순히 코드를 작성하는 데 그치지 않고 브라우저를 직접 조작하며 실시간 이슈를 디버깅하는 능력을 보여주었으며, Claude 4.5와 GPT-5.2 같은 모델들은 특정 영역에서 70~90% 이상의 높은 평균 점수를 기록했습니다. * **복잡한 UI 역공학**: 'Checkout Gym' 과제에서 에이전트들은 기존 UI를 분석하여 제품 ID, 수량, 세금 설정 등 20개 이상의 매개변수를 역으로 추출해 API 호출로 변환하는 복잡한 추론 과정을 성공적으로 수행했습니다. * **자율적인 자기 검증**: 레거시 UI를 새로운 시스템으로 교체하는 작업에서, 에이전트는 명시적인 지시 없이도 브라우저에서 테스트 결제를 진행하고 Link(Stripe의 디지털 지갑)와 같은 실제 결제 수단을 활용해 동작 여부를 스스로 확인했습니다. **한계점과 향후 과제** * **모호성 처리의 부재**: SDK 업그레이드와 같이 모호한 상황이 주어졌을 때, 에이전트들은 존재하지 않는 데이터를 입력하거나 API 오류(400 Error)가 발생해도 이를 논리적으로 해결하지 못하고 정체되는 현상을 보였습니다. * **엔드 투 엔드 검증의 어려움**: 코드를 생성하는 능력과 사람이 수행하는 수준의 엄격한 검증 및 테스트 사이에는 여전히 간극이 존재하며, 특히 장기적인 프로젝트 관리 능력에서는 추가적인 개선이 필요합니다. **실용적인 제언** 에이전트를 실제 개발 워크플로우에 도입하려는 조직은 단순히 코드 생성 엔진으로서의 성능뿐만 아니라, 에이전트가 터미널과 브라우저를 사용하여 자신의 작업을 스스로 검증할 수 있는 환경을 제공하는 데 집중해야 합니다. 또한, API 문서의 명확성과 모호하지 않은 에러 메시지 제공은 에이전트의 자율적 문제 해결 능력을 극대화하는 핵심 요소가 될 것입니다.

에이전트 시스템 확장의 과학 (새 탭에서 열림)

구글 리서치는 AI 에이전트 시스템 설계에 있어 '에이전트 수가 많을수록 좋다'는 기존의 통념을 깨고, 과업의 특성에 따라 최적의 아키텍처가 달라짐을 실증적으로 분석했습니다. 180가지 에이전트 설정에 대한 대규모 실험 결과, 병렬 처리가 가능한 과업에서는 멀티 에이전트가 성능을 크게 향상시키지만 순차적 추론이 필요한 과업에서는 오히려 성능을 저하시킨다는 점을 발견했습니다. 연구팀은 이러한 정량적 원칙을 바탕으로 새로운 과업에 대해 최적의 구조를 87% 확률로 예측하는 모델을 제시하며 '에이전트 스케일링의 과학'을 제안합니다. ## 에이전트 시스템의 5가지 핵심 아키텍처 연구팀은 에이전트의 확장 방식을 이해하기 위해 다음과 같은 다섯 가지 표준 아키텍처를 정의하고 비교했습니다. * **단일 에이전트 (SAS):** 혼자서 모든 추론과 행동 단계를 순차적으로 수행하며 단일 메모리 스트림을 유지합니다. * **독립형 (Independent):** 여러 에이전트가 통신 없이 병렬로 하위 작업을 수행한 뒤 최종 결과만 합산합니다. * **중앙 집중형 (Centralized):** 중앙 조정자(Orchestrator)가 작업을 할당하고 결과를 합성하는 '허브 앤 스포크' 모델입니다. * **분산형 (Decentralized):** 에이전트들이 직접 소통하며 정보를 공유하고 합의에 도달하는 P2P 방식입니다. * **하이브리드 (Hybrid):** 계층적 감독과 에이전트 간 직접 통신을 결합하여 유연성과 통제력의 균형을 맞춥니다. ## 과업 특성에 따른 성능 차이: 병렬성과 순차성 에이전트 시스템의 성능은 과업이 가진 본질적인 구조에 따라 극명하게 갈리는 것으로 나타났습니다. * **병렬 과업의 이점:** 금융 분석처럼 하위 작업 분해가 용이한 과업에서는 중앙 집중형 아키텍처가 단일 에이전트 대비 80.9%의 성능 향상을 기록했습니다. * **순차적 추론의 페널티:** 엄격한 순서가 필요한 계획 수립(PlanCraft) 과업에서는 멀티 에이전트 구조 도입 시 성능이 오히려 39~70% 급락했습니다. 이는 통신 비용이 추론에 필요한 '인지 예산'을 잠식하기 때문입니다. * **도구 사용의 병목 현상:** 사용하는 도구의 개수가 많아질수록 에이전트 간 조율에 드는 비용이 기하급수적으로 증가하는 '도구-조율 트레이드오프'가 발생합니다. ## 신뢰성 보장을 위한 아키텍처의 역할 실제 배포 상황에서 중요한 오류 확산 방지 측면에서도 아키텍처별 성능 차이가 뚜렷했습니다. * **오류 증폭 위험:** 에이전트 간 소통이 없는 독립형 시스템은 한 에이전트의 실수가 최종 결과에 미치는 악영향이 단일 에이전트보다 17.2배나 높았습니다. * **중앙 관리의 검증 효과:** 중앙 집중형 시스템은 조정자가 '검증 병목(Validation Bottleneck)' 역할을 수행하여 오류 증폭을 4.4배 수준으로 낮추며 가장 안정적인 결과를 보였습니다. ## 최적의 에이전트 설계를 위한 제언 연구팀은 과업의 도구 수와 분해 가능성 등 측정 가능한 속성을 통해 최적의 아키텍처를 결정할 수 있는 예측 모델을 개발했습니다. * 무조건 에이전트 수를 늘리기보다, 과업이 병렬 처리에 적합한지(금융 분석 등) 혹은 순차적 정확도가 중요한지(코딩, 계획 등)를 먼저 파악해야 합니다. * 시스템의 복잡도가 높아질수록 오류 확산을 막기 위해 중앙 조정자를 둔 계층적 구조를 채택하는 것이 안정성 측면에서 유리합니다. * 이 연구에서 제시된 예측 모델을 활용하면 새로운 도메인에서도 80% 이상의 정확도로 가장 효율적인 에이전트 구성을 사전에 선택할 수 있습니다.

네이버 TV (새 탭에서 열림)

VLOps는 학습, 평가, 배포 과정을 Typed Message 단위로 정의하고 이를 감지해 자율적으로 실행하는 이벤트 기반 MLOps 시스템입니다. 기존 파이프라인 방식의 복잡성을 해결하고 시스템 간 느슨한 결합을 통해 클라우드 호환성과 기능 확장성을 극대화한 것이 특징입니다. 이를 통해 사용자는 내부의 복잡한 오케스트레이션 구조를 몰라도 메시지 발행만으로 효율적인 모델 관리 파이프라인을 구동할 수 있습니다. **이벤트 기반 MLOps의 핵심 구조** * 학습, 평가, 배포 등 MLOps의 각 단계를 Typed Message라는 독립적인 데이터 단위로 정의하여 관리합니다. * Event Sensor가 발행된 메시지를 실시간으로 감지하고, 정의된 로직에 따라 적절한 작업을 자율적으로 수행하는 구조를 가집니다. * 메시지 중심의 설계를 통해 각 시스템 간 의존성을 낮추는 느슨한 결합(Loose Coupling)을 실현하여, 특정 클라우드 환경에 종속되지 않는 호환성을 확보했습니다. **기존 파이프라인 방식과의 차별점** * Kubeflow와 같은 전통적인 파이프라인 도구와 달리, 전체 워크플로우에 대한 엄격한 버전 관리가 강제되지 않아 운영의 유연성이 높습니다. * 새로운 기능을 추가할 때 전체 시스템을 재설계할 필요 없이, 단순히 새로운 메시지 타입을 정의하고 추가하는 것만으로 기능을 확장할 수 있습니다. * 사용자는 복잡한 내부 인프라 로직을 이해할 필요 없이 표준화된 메시지만 발행하면 동일한 파이프라인 결과를 얻을 수 있어 개발 경험이 개선됩니다. **Omni-Evaluator와 대시보드를 통한 통합 관리** * Omni-Evaluator는 파편화된 다양한 모델 엔진과 벤치마크 도구들을 하나로 통합하여 일관된 평가 환경을 제공합니다. * VLOps Dashboard를 통해 전체 작업의 진행 상태를 실시간으로 모니터링하고 시각화된 결과 지표를 한눈에 파악할 수 있습니다. * 시스템에 의한 자동 트리거뿐만 아니라, 사용자가 필요 시 직접 이벤트를 발생시켜 특정 평가나 배포를 수행할 수 있는 사용자 주도적 제어 기능을 지원합니다. 모델의 규모가 커지고 복잡해지는 멀티모달 LLM 환경에서는 경직된 파이프라인보다 이벤트 기반의 비동기 아키텍처가 변화에 더 유연하게 대응할 수 있습니다. 인프라의 복잡도를 추상화하고 메시지 기반의 확장성을 확보하려는 조직에게 VLOps와 같은 접근 방식은 매우 실용적인 대안이 될 것입니다.

대규모 대화형 AI 평가를 (새 탭에서 열림)

대규모 언어 모델(LLM) 기반의 애플리케이션은 겉으로 보기에 단순해 보이지만, 내부적으로는 검색, 랭킹, 프롬프트 구성 등 복잡한 확률적 단계들이 체인처럼 연결되어 있어 미세한 수정만으로도 성능이 급변할 수 있습니다. Dropbox Dash 개발팀은 이러한 불확실성을 통제하기 위해 평가 프로세스를 단순한 사후 점검이 아닌 '프로덕션 코드'와 동일한 수준의 엄격한 표준으로 관리해야 한다고 강조합니다. 성공적인 AI 서비스를 위해서는 공공 및 내부 데이터를 혼합한 정교한 데이터셋 구축과 더불어, 단순 NLP 지표를 넘어선 LLM 기반의 자동화된 평가 체계를 구축하는 것이 핵심입니다. ### 다각적인 데이터셋 구축 전략 * **공공 데이터셋을 통한 베이스라인 수립**: Google의 Natural Questions, MS MARCO, MuSiQue 등을 활용해 대규모 문서 검색, 다중 문서 처리, 멀티홉(multi-hop) 질의응답 성능을 초기 단계에서 검증합니다. * **실제 사용자 패턴 반영**: 사내 테스트(Dogfooding)를 통해 수집된 로그 데이터를 익명화하고 랭킹화하여 실제 사용자의 질문 방식과 의도를 반영한 대표 쿼리셋을 구성합니다. * **합성 데이터(Synthetic Data) 활용**: 표, 이미지, 튜토리얼 등 다양한 콘텐츠 타입에 대해 LLM이 직접 질문과 답변 쌍을 생성하게 함으로써 실세계의 복잡한 사례들을 포괄합니다. ### 전통적 지표의 한계와 LLM 평가 도입 * **전통적 NLP 지표의 제약**: BLEU, ROUGE, BERTScore 등은 계산이 빠르지만, 답변의 사실 관계나 출처 인용의 정확성, 할루시네이션(환각) 여부를 판단하는 데에는 한계가 있습니다. * **LLM 기반 판독(LLM-as-a-judge)**: 평가 모델(Judge Model)이 답변의 사실성, 질문에 대한 직접적인 응답 여부, 톤앤매너 등을 검토하며, 단순 점수뿐만 아니라 판단 근거(Justification)를 함께 제공하도록 설계합니다. * **평가 모듈의 소프트웨어화**: 평가 프롬프트와 기준(Rubric)을 소프트웨어 모듈처럼 버전 관리하고, 정기적으로 정답 셋(Gold Standard)과 비교하여 평가 모델 자체의 성능을 교정합니다. ### 엄격한 워크플로우와 품질 관리 * **구조화된 평가 결과 산출**: JSON 형식으로 결과(사실 정확도, 인용 적절성, 명확성 등)를 출력하여 시스템이 즉각적으로 성공과 실패를 판단할 수 있는 '라이브 알람' 체계를 구축합니다. * **휴먼 인 더 루프(Human-in-the-loop)**: 자동화된 평가가 전체의 대부분을 담당하더라도, 매 배포 시 엔지니어가 회귀 테스트 세트의 5~10%를 수동으로 검수하여 평가 모델의 편향이나 오류를 잡아냅니다. * **반복적인 프롬프트 개선**: 수동 검수에서 발견된 불일치 사례를 추적하여 평가 프롬프트를 수정하거나 모델을 교체함으로써 전체적인 평가 루프의 신뢰도를 높입니다. 실질적인 AI 성능 향상을 위해서는 모델 훈련만큼이나 정교한 평가 인프라에 투자해야 합니다. 공공 데이터로 기초를 다지고 내부 로그로 실전 감각을 더하며, LLM 평가자를 엄격하게 관리하는 일련의 과정이 뒷받침될 때 비로소 신뢰할 수 있는 AI 서비스를 운영할 수 있습니다.

의료 언어 모델 평가를 위한 (새 탭에서 열림)

구글 리서치는 건강 분야 대규모 언어 모델(LLM)의 성능을 정밀하고 효율적으로 평가하기 위한 새로운 프레임워크인 '적응형 정밀 불리언 루브릭(Adaptive Precise Boolean rubrics)'을 공개했습니다. 이 방법론은 복잡하고 주관적이기 쉬운 평가 기준을 세분화된 예/아니오(Yes/No) 질문으로 변환하고, 생성된 답변과 관련된 질문만 동적으로 필터링하여 평가 효율성을 극대화합니다. 결과적으로 기존 리커트(Likert) 척도 방식보다 평가 시간을 50% 이상 단축하면서도 평가자 간 일치도(Inter-rater reliability)를 크게 향상시키는 성과를 거두었습니다. ## 정밀 불리언 루브릭의 설계 원리 * **복잡한 기준의 세분화**: 기존의 서술형 답변이나 5점 척도(Likert scale) 방식은 평가자의 주관이 개입될 여지가 많아 일관성이 떨어집니다. 이를 해결하기 위해 평가 항목을 아주 작은 단위의 불리언(Boolean, 참/거짓) 질문으로 쪼개어 평가자의 판단을 단순화했습니다. * **객관성 및 일관성 확보**: 예/아니오 형태의 단순한 질문 구조는 평가자 간의 해석 차이를 줄여주며, 결과적으로 내급 상관 계수(ICC)로 측정되는 평가자 간 신뢰도를 대폭 높여줍니다. * **대사 건강 도메인 적용**: 당뇨병, 심혈관 질환, 비만 등 복잡한 전문 지식이 필요한 대사 건강 분야를 대상으로 루브릭을 설계하여 실무적인 유효성을 검증했습니다. ## 적응형 필터링을 통한 효율성 극대화 * **질문 수 폭증 문제 해결**: 평가 기준을 세분화하면 전체 질문 수가 급격히 늘어나 인간 평가자의 부담이 커지는 문제가 발생합니다. 이를 해결하기 위해 '적응형(Adaptive)' 메커니즘을 도입했습니다. * **LLM 기반 자동 분류**: 제미나이(Gemini) 모델을 제로샷 분류기로 활용하여, 사용자의 질문과 모델의 답변 내용을 분석한 뒤 해당 상황에 꼭 필요한 핵심 루브릭 질문만 동적으로 선별합니다. * **전문가 검증을 통한 신뢰 확보**: 의료 전문가 3인의 교차 검증을 통해 '인간 적응형(Human-Adaptive)' 기준 데이터를 구축하고, 모델이 필터링한 질문 세트가 실제 의학적 관점에서도 타당한지 확인했습니다. ## 평가 신뢰도 및 성능 지표 개선 * **평가 시간 50% 단축**: 적응형 루브릭을 적용한 결과, 기존 리커트 척도 방식보다 평가에 소요되는 시간을 절반 이상 줄일 수 있었으며 이는 대규모 모델 평가의 확장성을 확보해 줍니다. * **신뢰도 지표 향상**: 인간 전문가와 비전문가, 그리고 자동화된 평가 도구 간의 상관관계가 기존 방식보다 높게 나타났으며, 이는 단순화된 점수 체계가 오히려 더 높은 품질의 신호를 제공함을 시사합니다. * **모델 품질 민감도 측정**: 세분화된 불리언 루브릭은 모델 답변의 미세한 결함이나 개선이 필요한 지점을 더 정확하게 식별해내며, 이를 통해 체계적인 모델 고도화가 가능해집니다. 이 프레임워크는 건강 및 의료와 같이 높은 안전성과 정확성이 요구되는 전문 분야에서 LLM을 평가할 때 직면하는 비용과 신뢰성 문제를 동시에 해결할 수 있는 실용적인 대안을 제시합니다. 특히 인간의 전문적인 판단과 모델의 자동화된 필터링을 결합함으로써 차세대 의료 AI 서비스의 검증 표준으로 활용될 가능성이 높습니다.