multi-agent-systems

5 개의 포스트

더 스마트한 광고를 위한 우리의 (새 탭에서 열림)

Spotify는 광고 비즈니스의 다양한 구매 채널 간에 발생하는 의사결정 로직의 파편화 문제를 해결하기 위해 멀티 에이전트 아키텍처를 도입했습니다. 기존의 하드코딩된 워크플로우 대신, 광고주의 의도를 이해하고 공유된 신호를 바탕으로 추론하는 '프로그래밍 가능한 의사결정 계층'을 구축하여 모든 채널에서 일관된 최적화를 달성하고자 합니다. 이를 통해 복잡한 비즈니스 제약 조건을 유연하게 처리하고, 기존 광고 서비스들을 에이전트가 활용하는 도구로 재정의함으로써 시스템 전반의 운영 효율성을 극대화하는 것이 이 글의 핵심입니다. ### 기존 워크플로우의 구조적 한계와 파편화 * **채널별 로직 불일치:** 동일한 백엔드 인프라를 공유함에도 불구하고 Direct, Self-Serve, Programmatic 등 각 구매 채널별로 의사결정 로직과 휴리스틱이 다르게 구현되어 동작의 불일치가 발생합니다. * **중복 구현과 기술 부채:** 예산 할당이나 인벤토리 선택과 같은 핵심 로직이 각 채널 및 사용자 접점(Spotify Ads Manager, Salesforce, Slack 등)마다 중복 구현되어 관리 비용이 증가하고 로직의 변질(Drift)이 일어납니다. * **의도 계층(Intent Layer)의 부재:** 기존 시스템은 "브라질 내 도달 범위 극대화 및 비디오 인벤토리 보호"와 같은 복합적인 목표를 이해하고 이를 실행 가능한 도구 호출 순서로 변환하는 능력이 부족했습니다. ### 멀티 에이전트 기반 의사결정 계층의 도입 * **모듈형 에이전트 구조:** 복잡하고 확률적인 광고 로직을 정적인 규칙 엔진(Rules Engine)에 가두는 대신, 상황에 따라 추론하고 실행하는 독립적인 에이전트들의 집합으로 구성했습니다. * **공유 신호 기반 최적화:** 모든 에이전트는 인벤토리, 오디언스, 성능 이력 등 동일한 기저 신호를 공유하며 광고주의 목표와 Spotify의 비즈니스 제약 조건을 동시에 고려하여 최적의 경로를 찾습니다. * **기존 서비스의 도구화:** 기존 광고 서비스들을 처음부터 다시 만드는 대신, 에이전트가 목적에 따라 호출하여 사용할 수 있는 '도구(Tools)'로 활용함으로써 오케스트레이션 성능을 높였습니다. ### 에이전트 중심 설계를 위한 기술적 패러다임 전환 * **API 설계의 변화:** 단순히 데이터를 생성하고 수정하는 CRUD 방식에서 벗어나, 에이전트가 특정 기능을 실행하기 위해 직관적으로 이해하고 사용할 수 있는 '도구 중심 API'로 재설계했습니다. * **행동 중심의 평가:** 전통적인 유닛/통합 테스트를 넘어, 에이전트가 내린 결정이 비즈니스 목표에 부합하는지 확인하는 '행동 평가(Behavioral Evaluation)' 체계를 구축했습니다. * **추론 과정의 관측성:** 시스템 성능 지표뿐만 아니라 "에이전트가 왜 그런 결정을 내렸는가"에 대한 추론 과정을 추적하여 투명성을 확보했습니다. * **자율성을 제어하는 가드레일:** 입력값 검증 수준을 넘어 반자율적인 에이전트의 결정이 비즈니스 규칙과 안전 가이드라인 내에서 유지되도록 하는 가드레일 메커니즘을 도입했습니다. 복잡한 비즈니스 로직이 여러 플랫폼에 흩어져 있다면, 이를 개별 서비스로 관리하기보다 통합된 '의사결정 엔진'으로서의 에이전트 플랫폼을 구축하는 것이 장기적인 유지보수와 기능 확장 면에서 유리합니다. Spotify는 이를 미디어 플래닝(Media Planning) 영역에 우선 적용하여 복잡한 변수 속에서도 일관된 최적화 성능을 증명하고 있습니다.

에이전트 시스템 확장의 과학 (새 탭에서 열림)

구글 리서치는 AI 에이전트 시스템 설계에 있어 '에이전트 수가 많을수록 좋다'는 기존의 통념을 깨고, 과업의 특성에 따라 최적의 아키텍처가 달라짐을 실증적으로 분석했습니다. 180가지 에이전트 설정에 대한 대규모 실험 결과, 병렬 처리가 가능한 과업에서는 멀티 에이전트가 성능을 크게 향상시키지만 순차적 추론이 필요한 과업에서는 오히려 성능을 저하시킨다는 점을 발견했습니다. 연구팀은 이러한 정량적 원칙을 바탕으로 새로운 과업에 대해 최적의 구조를 87% 확률로 예측하는 모델을 제시하며 '에이전트 스케일링의 과학'을 제안합니다. ## 에이전트 시스템의 5가지 핵심 아키텍처 연구팀은 에이전트의 확장 방식을 이해하기 위해 다음과 같은 다섯 가지 표준 아키텍처를 정의하고 비교했습니다. * **단일 에이전트 (SAS):** 혼자서 모든 추론과 행동 단계를 순차적으로 수행하며 단일 메모리 스트림을 유지합니다. * **독립형 (Independent):** 여러 에이전트가 통신 없이 병렬로 하위 작업을 수행한 뒤 최종 결과만 합산합니다. * **중앙 집중형 (Centralized):** 중앙 조정자(Orchestrator)가 작업을 할당하고 결과를 합성하는 '허브 앤 스포크' 모델입니다. * **분산형 (Decentralized):** 에이전트들이 직접 소통하며 정보를 공유하고 합의에 도달하는 P2P 방식입니다. * **하이브리드 (Hybrid):** 계층적 감독과 에이전트 간 직접 통신을 결합하여 유연성과 통제력의 균형을 맞춥니다. ## 과업 특성에 따른 성능 차이: 병렬성과 순차성 에이전트 시스템의 성능은 과업이 가진 본질적인 구조에 따라 극명하게 갈리는 것으로 나타났습니다. * **병렬 과업의 이점:** 금융 분석처럼 하위 작업 분해가 용이한 과업에서는 중앙 집중형 아키텍처가 단일 에이전트 대비 80.9%의 성능 향상을 기록했습니다. * **순차적 추론의 페널티:** 엄격한 순서가 필요한 계획 수립(PlanCraft) 과업에서는 멀티 에이전트 구조 도입 시 성능이 오히려 39~70% 급락했습니다. 이는 통신 비용이 추론에 필요한 '인지 예산'을 잠식하기 때문입니다. * **도구 사용의 병목 현상:** 사용하는 도구의 개수가 많아질수록 에이전트 간 조율에 드는 비용이 기하급수적으로 증가하는 '도구-조율 트레이드오프'가 발생합니다. ## 신뢰성 보장을 위한 아키텍처의 역할 실제 배포 상황에서 중요한 오류 확산 방지 측면에서도 아키텍처별 성능 차이가 뚜렷했습니다. * **오류 증폭 위험:** 에이전트 간 소통이 없는 독립형 시스템은 한 에이전트의 실수가 최종 결과에 미치는 악영향이 단일 에이전트보다 17.2배나 높았습니다. * **중앙 관리의 검증 효과:** 중앙 집중형 시스템은 조정자가 '검증 병목(Validation Bottleneck)' 역할을 수행하여 오류 증폭을 4.4배 수준으로 낮추며 가장 안정적인 결과를 보였습니다. ## 최적의 에이전트 설계를 위한 제언 연구팀은 과업의 도구 수와 분해 가능성 등 측정 가능한 속성을 통해 최적의 아키텍처를 결정할 수 있는 예측 모델을 개발했습니다. * 무조건 에이전트 수를 늘리기보다, 과업이 병렬 처리에 적합한지(금융 분석 등) 혹은 순차적 정확도가 중요한지(코딩, 계획 등)를 먼저 파악해야 합니다. * 시스템의 복잡도가 높아질수록 오류 확산을 막기 위해 중앙 조정자를 둔 계층적 구조를 채택하는 것이 안정성 측면에서 유리합니다. * 이 연구에서 제시된 예측 모델을 활용하면 새로운 도메인에서도 80% 이상의 정확도로 가장 효율적인 에이전트 구성을 사전에 선택할 수 있습니다.

우리가 개인용 건강 코치를 (새 탭에서 열림)

구글은 제미나이(Gemini) 모델을 기반으로 사용자의 수면, 활동 등 생체 데이터를 분석해 맞춤형 가이드를 제공하는 '개인형 AI 건강 코치(Personal Health Coach)'를 개발하고 있습니다. 이 서비스는 기존 건강 앱들의 파편화된 정보를 통합하여 행동 과학에 기반한 능동적이고 적응적인 코칭 계획을 제시하는 것을 목표로 합니다. 특히 멀티 에이전트 프레임워크와 엄격한 전문가 검증 체계를 도입하여 AI 피드백의 과학적 신뢰성과 개인화된 정확성을 동시에 확보했습니다. **제미나이 모델의 건강 코칭 최적화 기술** * **시계열 데이터 추론:** 수면 및 활동과 같은 생체 시계열 데이터에 대해 수치적 추론을 수행하며, 개인의 기준점(Baseline) 및 인구 통계 데이터와 비교 분석하여 맞춤형 통찰을 도출합니다. * **멀티 에이전트 프레임워크(Multi-agent Framework):** 여러 전문 에이전트가 협업하는 구조를 채택했습니다. * **대화형 에이전트:** 사용자의 의도를 파악하고 맥락을 수집하며 전체 프로세스를 조율합니다. * **데이터 과학 에이전트:** 코드 생성 능력을 활용해 데이터를 검색, 분석 및 요약합니다. * **도메인 전문가 에이전트:** 피트니스 등 특정 분야의 지식을 바탕으로 개인화된 운동 계획을 수립하고 수정합니다. * **시스템 조율(Steering):** 범용 모델이 건강 및 웰니스 맥락에서 유용하게 작동하도록 소비자 건강 요구사항에 맞춘 전용 시스템 지침과 평가 모델을 적용했습니다. **전문가 검증 및 사용자 중심 설계** * **과학적 근거 확보:** 검증된 코칭 및 피트니스 프레임워크를 기반으로 코칭 로직을 설계했습니다. * **전문가 자문단 운영:** '소비자 건강 자문 패널'과 전문 피트니스 코치들의 피드백을 수용하여 실제 현장에서 통용되는 맥락 정보를 통합했습니다. * **대규모 사용자 연구:** '핏빗 인사이트 익스플로러(Fitbit Insights Explorer)' 등을 통해 수만 명의 사용자로부터 실제 데이터를 수집하고 이를 모델 학습과 개선에 활용했습니다. **SHARP 평가 프레임워크를 통한 신뢰성 강화** * **5대 평가 요소:** 안전성(Safety), 유익성(Helpfulness), 정확성(Accuracy), 관련성(Relevance), 개인화(Personalization)를 기준으로 코치를 다각도 평가합니다. * **방대한 평가 데이터:** 스포츠 의학, 수면, 심장학 등 다양한 분야의 전문가들이 참여하여 100만 개 이상의 주석(Annotation)과 10만 시간 이상의 인간 평가를 진행했습니다. * **자동 평가 시스템:** 오토레이터(Autoraters)를 도입해 전문가 평가를 확장 및 가속화함으로써 웰니스 권장 사항의 과학적 정확성을 지속적으로 검증합니다. 현재 이 서비스는 미국의 핏빗 프리미엄(Fitbit Premium) 안드로이드 사용자를 대상으로 공개 프리뷰가 시작되었으며, 곧 iOS로 확대될 예정입니다. AI 코칭은 단순한 정보 제공을 넘어 개인의 생체 리듬과 목표에 맞춰 실시간으로 변화하는 '살아있는 가이드'로서의 역할을 수행하게 될 것입니다.

개인 건강 에이전트 (새 탭에서 열림)

구글 리서치는 웨어러블 기기의 시계열 데이터와 혈액 지표 등 다중 모드(multimodal) 데이터를 분석하여 개인화된 건강 통찰력을 제공하는 LLM 기반의 '개인 건강 에이전트(PHA)' 연구 프레임워크를 공개했습니다. 이 시스템은 데이터 과학, 도메인 전문가, 건강 코치라는 세 가지 전문 서브 에이전트로 구성된 멀티 에이전트 아키텍처를 채택하여 사용자의 복잡하고 모호한 건강 질문에 정밀하게 대응합니다. 대규모 실제 사용자 데이터를 활용한 광범위한 평가 결과, PHA는 기존 단일 LLM 대비 데이터 분석 및 의학적 근거 기반 조언 측면에서 월등한 성능을 입증하며 차세대 개인용 건강 관리 도구의 가능성을 제시했습니다. **사용자 중심 설계와 멀티 에이전트 구조** * 1,300개 이상의 실제 건강 질문과 500명 이상의 사용자 설문 조사를 분석하여 일반 건강 지식 이해, 개인 데이터 해석, 실천 가능한 조언, 증상 평가라는 4가지 핵심 요구 사항을 도출했습니다. * 인간 전문가 팀의 업무 방식을 모방하여 데이터 과학자, 도메인 전문가, 개인 건강 코치 역할을 수행하는 서브 에이전트들이 협업하는 구조를 설계했습니다. * 약 1,200명의 사용자로부터 동의를 얻은 핏빗(Fitbit) 활동 데이터, 건강 설문, 혈액 검사 결과를 포함한 리얼 월드 데이터셋을 평가에 활용하여 실무적인 유효성을 검증했습니다. **데이터 과학 에이전트: 시계열 데이터의 수치적 해석** * 웨어러블 기기의 복잡한 시계열 데이터를 분석하며, "최근에 더 건강해졌나요?"와 같은 사용자의 모호한 질문을 구체적인 통계 분석 계획으로 변환합니다. * 분석 계획 수립과 코드 생성의 2단계 프로세스를 거쳐 통계적으로 유효한 답변을 도출하며, 생성된 코드는 실제 데이터에서 즉시 실행 가능한 수준의 정확도를 갖췄습니다. * 평가 결과, 데이터 분석 계획 수립 능력에서 75.6%의 점수를 기록하며 기본 모델(Gemini, 53.7%)을 크게 상회하는 성능을 보였습니다. **도메인 전문가 에이전트: 근거 기반의 신뢰할 수 있는 정보** * NCBI(미국 국립생물정보센터)와 같은 권위 있는 외부 데이터베이스에 접근하여 검증된 사실에 기반한 답변을 생성하는 다단계 추론 프레임워크를 사용합니다. * 사용자의 기저 질환이나 개인 프로필에 맞춰 정보를 맞춤화하여 제공하며, 전문 보건 자격시험 문항 및 감별 진단 능력을 평가하는 벤치마크에서 우수한 성과를 거두었습니다. * 의료 전문가와 일반 소비자 모두를 대상으로 한 인간 평가를 통해 정보의 정확성과 안전성을 동시에 확보했습니다. 이 연구는 범용 LLM의 한계를 넘어 전문화된 에이전트 간의 협업이 개인화된 의료 AI 서비스에서 얼마나 중요한지를 잘 보여줍니다. 앞으로 이러한 기술이 실제 서비스에 적용된다면, 사용자는 자신의 건강 데이터를 단순히 수집하는 것을 넘어 능동적으로 이해하고 실질적인 생활 습관 변화를 이끌어내는 강력한 조력자를 얻게 될 것입니다.

AMIE를 위한 의사 (새 탭에서 열림)

구글 딥마인드가 발표한 g-AMIE(guardrailed-AMIE)는 환자의 병력을 청취하고 진단 정보를 정리하는 의료용 AI 시스템으로, 의사의 최종 감독을 전제로 설계되었습니다. 이 시스템은 환자에게 직접적인 의료 조언을 제공하지 못하도록 엄격한 가드레일을 적용하되, 대신 의사가 검토하고 승인할 수 있는 상세한 임상 보고서를 생성합니다. 가상 임상 시험 결과, g-AMIE의 진단 정확도와 환자 소통 능력은 동일한 제약 조건 하의 인간 의료 전문가보다 우수한 것으로 평가되어 의료 AI의 안전한 도입 가능성을 제시했습니다. ### 의사 중심의 감독 체계와 비동기식 협업 * 의료 행위의 법적 책임과 전문성을 보장하기 위해 AI가 독자적으로 진단하는 대신, 전문의가 AI의 결과물을 검토하고 승인하는 '의사 중심 감독' 프레임워크를 채택했습니다. * AI가 환자와 대화하며 병력을 청취하는 동안 전문의는 다른 업무를 수행할 수 있으며, 이후 AI가 요약한 정보를 비동기적으로 검토함으로써 진료 효율성을 극대화합니다. * Gemini 2.0 Flash를 기반으로 구축되었으며, 의사가 진단 및 관리 계획을 수정·승인할 수 있도록 설계된 전용 웹 인터페이스인 '클리니션 콕핏(Clinician Cockpit)'을 제공합니다. ### 세분화된 멀티 에이전트 시스템 구조 * **대화 에이전트:** 일반적인 병력 청취부터 초기 진단 가설 검증을 위한 맞춤 질문, 환자의 궁금증 해소에 이르는 3단계 프로세스를 통해 고품질의 대화를 수행합니다. * **가드레일 에이전트:** AI가 환자에게 개별화된 의료 조언이나 진단을 직접 내리지 않도록 실시간으로 모든 답변을 감시하고, 규정을 준수하도록 문구를 재구성합니다. * **SOAP 노트 에이전트:** 수집된 정보를 주관적 기술(Subjective), 객관적 자료(Objective), 평가(Assessment), 계획(Plan)의 SOAP 형식으로 자동 생성하며, 의사가 환자에게 전달할 메시지 초안까지 함께 작성합니다. ### 임상 수행 능력 평가 (OSCE) 결과 * 60개의 환자 시나리오를 활용해 일반의(PCP) 및 간호사/의사 보조사(NP/PA) 그룹과 g-AMIE의 성능을 무작위 대조 시험으로 비교했습니다. * 감독 의사들과 독립적인 평가단은 g-AMIE가 도출한 차별 진단(Differential Diagnosis)과 환자 관리 계획이 인간 전문가 그룹보다 더 우수하다고 평가했습니다. * 환자 역할을 맡은 연기자들 또한 인간 의료진이 작성한 메시지보다 g-AMIE가 작성한 환자용 메시지에 대해 더 높은 선호도와 만족도를 보였습니다. g-AMIE는 AI의 데이터 처리 효율성과 전문의의 임상적 책임감을 결합한 새로운 의료 협업 모델의 이정표를 제시합니다. 비록 AI 시스템에 특화된 환경에서 도출된 결과라는 점을 고려해야 하나, 가드레일을 통해 안전성을 확보하면서도 의사의 업무 부하를 줄이는 이러한 기술적 접근은 향후 실제 진료 현장에 AI를 도입할 때 핵심적인 표준이 될 것으로 보입니다.