data-science

3 개의 포스트

DS-STAR: 최 (새 탭에서 열림)

DS-STAR는 통계 분석부터 시각화, 데이터 가공에 이르는 방대한 작업을 자동화하는 최첨단 데이터 과학 에이전트로, 특히 구조화되지 않은 다양한 형식의 데이터를 처리하는 데 탁월한 성능을 보입니다. 이 에이전트는 데이터 파일의 맥락을 자동으로 추출하고, 생성된 계획을 검증하며, 피드백에 따라 계획을 반복적으로 수정하는 세 가지 핵심 혁신을 통해 기존 모델의 한계를 극복했습니다. 결과적으로 DABStep을 포함한 주요 데이터 과학 벤치마크에서 기존의 최첨단 모델들을 제치고 1위를 차지하며 그 실효성을 입증했습니다. **다양한 데이터 형식의 자동 분석 및 맥락 추출** * 기존 데이터 과학 에이전트들이 CSV와 같은 정형 데이터에 의존했던 것과 달리, DS-STAR는 JSON, 비구조화 텍스트, 마크다운 등 현실 세계의 다양한 데이터 형식을 처리할 수 있습니다. * 워크플로의 첫 단계에서 디렉토리 내의 모든 파일을 자동으로 조사하여 데이터의 구조와 내용을 텍스트 요약 형태로 추출합니다. * 이 요약 정보는 에이전트가 당면한 과제를 해결하는 데 필요한 필수적인 맥락 데이터로 활용됩니다. **반복적 계획 수립 및 검증 프레임워크** * DS-STAR는 계획(Planner), 구현(Coder), 검증(Verifier), 라우팅(Router) 단계로 구성된 반복 루프를 통해 작동합니다. * LLM 기반의 검증 에이전트(Verifier)가 각 단계에서 수립된 계획의 충분성을 평가하며, 만약 미흡하다고 판단될 경우 라우터(Router)가 단계를 수정하거나 추가하도록 유도합니다. * 이는 전문가가 구글 코랩(Google Colab)과 같은 도구를 사용하여 중간 결과를 확인하며 순차적으로 분석을 진행하는 방식을 모방한 것으로, 최대 10회까지 반복 정제 과정을 거칩니다. **벤치마크 성능 및 실전 데이터 대응 능력** * DABStep, KramaBench, DA-Code와 같은 주요 벤치마크 평가에서 AutoGen 및 DA-Agent와 같은 기존 모델들을 일관되게 압도했습니다. * 특히 DABStep 벤치마크에서는 정확도를 기존 41.0%에서 45.2%로 끌어올리며 공공 리더보드 1위를 기록했습니다. * 단일 파일 작업(Easy task)뿐만 아니라 여러 이기종 데이터 소스를 결합해야 하는 복잡한 작업(Hard task)에서 경쟁 모델 대비 압도적인 성능 우위를 보였습니다. DS-STAR는 정형 데이터에 국한되지 않고 실제 비즈니스 현장의 파편화된 데이터를 통합 분석해야 하는 환경에서 매우 유용한 도구가 될 수 있습니다. 복잡한 데이터 과학 워크플로를 자동화하고자 하는 조직은 DS-STAR의 순차적 계획 수립 및 자기 검증 메커니즘을 도입함으로써 분석의 정확도와 신뢰성을 획기적으로 높일 수 있을 것입니다.

넷플릭스의 Meta (새 탭에서 열림)

넷플릭스는 머신러닝(ML) 및 AI 워크플로우의 프로토타이핑부터 프로덕션 운영까지의 전 과정을 효율화하기 위해 오픈소스 프레임워크인 메타플로우(Metaflow)를 지속적으로 발전시켜 왔습니다. 특히 최신 업데이트인 Metaflow 2.19 버전에서는 'Spin'이라는 기능을 도입하여, 대규모 데이터와 모델을 다루는 ML 개발 과정에서 필수적인 빠른 반복 시도(Iterative development)와 상태 유지(Stateful iteration)를 획기적으로 가속화했습니다. 이를 통해 개발자는 코드 변경 사항을 즉각적으로 확인하면서도 운영 환경의 안정성을 동시에 확보할 수 있습니다. **ML 및 AI 워크플로우에서의 반복 개발 특성** * **데이터와 모델 중심의 반복:** 전통적인 소프트웨어 공학의 코드 중심 개발과 달리, ML/AI 개발은 크기가 크고 가변적인 데이터 및 모델을 중심으로 이루어집니다. * **비결정적 과정:** 데이터 변환이나 모델 학습은 실행 시마다 결과가 조금씩 달라지는 확률적 특성을 가지며, 연산 비용이 매우 높습니다. * **노트북의 장점과 한계:** 주피터(Jupyter)와 같은 노트북 도구는 메모리에 상태를 유지하여 빠른 피드백을 주지만, 실행 순서의 불명확성, 숨겨진 상태 문제, 재현성 부족 등의 고질적인 문제를 안고 있습니다. **메타플로우의 체크포인트 기반 상태 관리** * **@step을 통한 체크포인트 설정:** 메타플로우의 각 단계(`@step`)는 체크포인트 경계 역할을 수행하며, 단계가 종료될 때 모든 인스턴스 변수를 아티팩트(Artifact)로 자동 저장합니다. * **Resume 기능의 활용:** 기존의 `resume` 명령어를 사용하면 특정 단계부터 실행을 재개할 수 있어, 실패한 지점이나 수정이 필요한 지점부터 다시 시작할 수 있습니다. * **노트북 방식과의 차별점:** 실행 순서가 명시적이고 결정적이며, 모든 상태가 버전화되어 저장되므로 결과의 추적과 재현이 매우 용이합니다. **Spin: 반복 개발 속도의 극대화** * **지연 시간 단축:** 기존의 `resume` 방식은 특정 단계부터 전체를 다시 실행해야 하므로 반복 주기 사이에 일정 수준의 지연(Latency)이 발생했습니다. * **점진적 실험의 가속화:** 새로운 'Spin' 기능은 이러한 지연을 최소화하여 노트북 수준의 즉각적인 피드백을 제공하면서도 메타플로우의 견고한 상태 관리 기능을 그대로 활용합니다. * **워크플로우 엔진과의 통합:** 메타플로우는 넷플릭스의 워크플로우 오케스트레이터인 마에스트로(Maestro)와 긴밀하게 연동되어, 개발 환경에서 테스트한 로직을 프로덕션 규모로 확장하는 데 소요되는 오버헤드를 최소화합니다. 데이터 과학자와 엔지니어는 Metaflow 2.19 버전을 통해 Spin 기능을 직접 체험해 볼 수 있습니다. 실험적인 탐색 단계에서는 노트북처럼 빠른 속도를 누리고, 배포 단계에서는 엔지니어링 표준을 준수하는 견고한 파이프라인을 구축하고자 한다면 메타플로우의 새로운 반복 개발 워크플로우를 도입해 보길 권장합니다.

개인 건강 에이전트 (새 탭에서 열림)

구글 리서치는 웨어러블 기기의 시계열 데이터와 혈액 지표 등 다중 모드(multimodal) 데이터를 분석하여 개인화된 건강 통찰력을 제공하는 LLM 기반의 '개인 건강 에이전트(PHA)' 연구 프레임워크를 공개했습니다. 이 시스템은 데이터 과학, 도메인 전문가, 건강 코치라는 세 가지 전문 서브 에이전트로 구성된 멀티 에이전트 아키텍처를 채택하여 사용자의 복잡하고 모호한 건강 질문에 정밀하게 대응합니다. 대규모 실제 사용자 데이터를 활용한 광범위한 평가 결과, PHA는 기존 단일 LLM 대비 데이터 분석 및 의학적 근거 기반 조언 측면에서 월등한 성능을 입증하며 차세대 개인용 건강 관리 도구의 가능성을 제시했습니다. **사용자 중심 설계와 멀티 에이전트 구조** * 1,300개 이상의 실제 건강 질문과 500명 이상의 사용자 설문 조사를 분석하여 일반 건강 지식 이해, 개인 데이터 해석, 실천 가능한 조언, 증상 평가라는 4가지 핵심 요구 사항을 도출했습니다. * 인간 전문가 팀의 업무 방식을 모방하여 데이터 과학자, 도메인 전문가, 개인 건강 코치 역할을 수행하는 서브 에이전트들이 협업하는 구조를 설계했습니다. * 약 1,200명의 사용자로부터 동의를 얻은 핏빗(Fitbit) 활동 데이터, 건강 설문, 혈액 검사 결과를 포함한 리얼 월드 데이터셋을 평가에 활용하여 실무적인 유효성을 검증했습니다. **데이터 과학 에이전트: 시계열 데이터의 수치적 해석** * 웨어러블 기기의 복잡한 시계열 데이터를 분석하며, "최근에 더 건강해졌나요?"와 같은 사용자의 모호한 질문을 구체적인 통계 분석 계획으로 변환합니다. * 분석 계획 수립과 코드 생성의 2단계 프로세스를 거쳐 통계적으로 유효한 답변을 도출하며, 생성된 코드는 실제 데이터에서 즉시 실행 가능한 수준의 정확도를 갖췄습니다. * 평가 결과, 데이터 분석 계획 수립 능력에서 75.6%의 점수를 기록하며 기본 모델(Gemini, 53.7%)을 크게 상회하는 성능을 보였습니다. **도메인 전문가 에이전트: 근거 기반의 신뢰할 수 있는 정보** * NCBI(미국 국립생물정보센터)와 같은 권위 있는 외부 데이터베이스에 접근하여 검증된 사실에 기반한 답변을 생성하는 다단계 추론 프레임워크를 사용합니다. * 사용자의 기저 질환이나 개인 프로필에 맞춰 정보를 맞춤화하여 제공하며, 전문 보건 자격시험 문항 및 감별 진단 능력을 평가하는 벤치마크에서 우수한 성과를 거두었습니다. * 의료 전문가와 일반 소비자 모두를 대상으로 한 인간 평가를 통해 정보의 정확성과 안전성을 동시에 확보했습니다. 이 연구는 범용 LLM의 한계를 넘어 전문화된 에이전트 간의 협업이 개인화된 의료 AI 서비스에서 얼마나 중요한지를 잘 보여줍니다. 앞으로 이러한 기술이 실제 서비스에 적용된다면, 사용자는 자신의 건강 데이터를 단순히 수집하는 것을 넘어 능동적으로 이해하고 실질적인 생활 습관 변화를 이끌어내는 강력한 조력자를 얻게 될 것입니다.