code-generation

3 개의 포스트

우리가 개인용 건강 코치를 (새 탭에서 열림)

구글은 제미나이(Gemini) 모델을 기반으로 사용자의 수면, 활동 등 생체 데이터를 분석해 맞춤형 가이드를 제공하는 '개인형 AI 건강 코치(Personal Health Coach)'를 개발하고 있습니다. 이 서비스는 기존 건강 앱들의 파편화된 정보를 통합하여 행동 과학에 기반한 능동적이고 적응적인 코칭 계획을 제시하는 것을 목표로 합니다. 특히 멀티 에이전트 프레임워크와 엄격한 전문가 검증 체계를 도입하여 AI 피드백의 과학적 신뢰성과 개인화된 정확성을 동시에 확보했습니다. **제미나이 모델의 건강 코칭 최적화 기술** * **시계열 데이터 추론:** 수면 및 활동과 같은 생체 시계열 데이터에 대해 수치적 추론을 수행하며, 개인의 기준점(Baseline) 및 인구 통계 데이터와 비교 분석하여 맞춤형 통찰을 도출합니다. * **멀티 에이전트 프레임워크(Multi-agent Framework):** 여러 전문 에이전트가 협업하는 구조를 채택했습니다. * **대화형 에이전트:** 사용자의 의도를 파악하고 맥락을 수집하며 전체 프로세스를 조율합니다. * **데이터 과학 에이전트:** 코드 생성 능력을 활용해 데이터를 검색, 분석 및 요약합니다. * **도메인 전문가 에이전트:** 피트니스 등 특정 분야의 지식을 바탕으로 개인화된 운동 계획을 수립하고 수정합니다. * **시스템 조율(Steering):** 범용 모델이 건강 및 웰니스 맥락에서 유용하게 작동하도록 소비자 건강 요구사항에 맞춘 전용 시스템 지침과 평가 모델을 적용했습니다. **전문가 검증 및 사용자 중심 설계** * **과학적 근거 확보:** 검증된 코칭 및 피트니스 프레임워크를 기반으로 코칭 로직을 설계했습니다. * **전문가 자문단 운영:** '소비자 건강 자문 패널'과 전문 피트니스 코치들의 피드백을 수용하여 실제 현장에서 통용되는 맥락 정보를 통합했습니다. * **대규모 사용자 연구:** '핏빗 인사이트 익스플로러(Fitbit Insights Explorer)' 등을 통해 수만 명의 사용자로부터 실제 데이터를 수집하고 이를 모델 학습과 개선에 활용했습니다. **SHARP 평가 프레임워크를 통한 신뢰성 강화** * **5대 평가 요소:** 안전성(Safety), 유익성(Helpfulness), 정확성(Accuracy), 관련성(Relevance), 개인화(Personalization)를 기준으로 코치를 다각도 평가합니다. * **방대한 평가 데이터:** 스포츠 의학, 수면, 심장학 등 다양한 분야의 전문가들이 참여하여 100만 개 이상의 주석(Annotation)과 10만 시간 이상의 인간 평가를 진행했습니다. * **자동 평가 시스템:** 오토레이터(Autoraters)를 도입해 전문가 평가를 확장 및 가속화함으로써 웰니스 권장 사항의 과학적 정확성을 지속적으로 검증합니다. 현재 이 서비스는 미국의 핏빗 프리미엄(Fitbit Premium) 안드로이드 사용자를 대상으로 공개 프리뷰가 시작되었으며, 곧 iOS로 확대될 예정입니다. AI 코칭은 단순한 정보 제공을 넘어 개인의 생체 리듬과 목표에 맞춰 실시간으로 변화하는 '살아있는 가이드'로서의 역할을 수행하게 될 것입니다.

개인 건강 에이전트 (새 탭에서 열림)

구글 리서치는 웨어러블 기기의 시계열 데이터와 혈액 지표 등 다중 모드(multimodal) 데이터를 분석하여 개인화된 건강 통찰력을 제공하는 LLM 기반의 '개인 건강 에이전트(PHA)' 연구 프레임워크를 공개했습니다. 이 시스템은 데이터 과학, 도메인 전문가, 건강 코치라는 세 가지 전문 서브 에이전트로 구성된 멀티 에이전트 아키텍처를 채택하여 사용자의 복잡하고 모호한 건강 질문에 정밀하게 대응합니다. 대규모 실제 사용자 데이터를 활용한 광범위한 평가 결과, PHA는 기존 단일 LLM 대비 데이터 분석 및 의학적 근거 기반 조언 측면에서 월등한 성능을 입증하며 차세대 개인용 건강 관리 도구의 가능성을 제시했습니다. **사용자 중심 설계와 멀티 에이전트 구조** * 1,300개 이상의 실제 건강 질문과 500명 이상의 사용자 설문 조사를 분석하여 일반 건강 지식 이해, 개인 데이터 해석, 실천 가능한 조언, 증상 평가라는 4가지 핵심 요구 사항을 도출했습니다. * 인간 전문가 팀의 업무 방식을 모방하여 데이터 과학자, 도메인 전문가, 개인 건강 코치 역할을 수행하는 서브 에이전트들이 협업하는 구조를 설계했습니다. * 약 1,200명의 사용자로부터 동의를 얻은 핏빗(Fitbit) 활동 데이터, 건강 설문, 혈액 검사 결과를 포함한 리얼 월드 데이터셋을 평가에 활용하여 실무적인 유효성을 검증했습니다. **데이터 과학 에이전트: 시계열 데이터의 수치적 해석** * 웨어러블 기기의 복잡한 시계열 데이터를 분석하며, "최근에 더 건강해졌나요?"와 같은 사용자의 모호한 질문을 구체적인 통계 분석 계획으로 변환합니다. * 분석 계획 수립과 코드 생성의 2단계 프로세스를 거쳐 통계적으로 유효한 답변을 도출하며, 생성된 코드는 실제 데이터에서 즉시 실행 가능한 수준의 정확도를 갖췄습니다. * 평가 결과, 데이터 분석 계획 수립 능력에서 75.6%의 점수를 기록하며 기본 모델(Gemini, 53.7%)을 크게 상회하는 성능을 보였습니다. **도메인 전문가 에이전트: 근거 기반의 신뢰할 수 있는 정보** * NCBI(미국 국립생물정보센터)와 같은 권위 있는 외부 데이터베이스에 접근하여 검증된 사실에 기반한 답변을 생성하는 다단계 추론 프레임워크를 사용합니다. * 사용자의 기저 질환이나 개인 프로필에 맞춰 정보를 맞춤화하여 제공하며, 전문 보건 자격시험 문항 및 감별 진단 능력을 평가하는 벤치마크에서 우수한 성과를 거두었습니다. * 의료 전문가와 일반 소비자 모두를 대상으로 한 인간 평가를 통해 정보의 정확성과 안전성을 동시에 확보했습니다. 이 연구는 범용 LLM의 한계를 넘어 전문화된 에이전트 간의 협업이 개인화된 의료 AI 서비스에서 얼마나 중요한지를 잘 보여줍니다. 앞으로 이러한 기술이 실제 서비스에 적용된다면, 사용자는 자신의 건강 데이터를 단순히 수집하는 것을 넘어 능동적으로 이해하고 실질적인 생활 습관 변화를 이끌어내는 강력한 조력자를 얻게 될 것입니다.

AI 기반 실증 (새 탭에서 열림)

구글 리서치가 과학적 발견을 가속화하기 위해 '경험적 소프트웨어(Empirical Software)'를 자동으로 설계하고 최적화하는 새로운 AI 시스템을 공개했습니다. 이 시스템은 제미나이(Gemini) 모델과 트리 탐색 알고리즘을 결합하여 과학적 가설을 검증하는 맞춤형 코드를 생성하며, 유전학부터 시계열 예측까지 6개 분야의 복잡한 벤치마크에서 전문가 수준의 성과를 거두었습니다. 이를 통해 기존에 수개월이 걸리던 연구 탐색 과정을 단 몇 시간으로 단축하여 과학적 혁신의 병목 현상을 해결할 수 있는 가능성을 제시했습니다. ### 경험적 소프트웨어와 점수화 가능한 과제 * 단순히 기능적인 정확성만을 따지는 일반 소프트웨어와 달리, 사전에 정의된 '품질 점수'를 극대화하는 것을 목표로 하는 '경험적 소프트웨어' 개념을 핵심으로 합니다. * 문제 설명, 평가 지표, 학습/검증 데이터를 포함한 '점수화 가능한 과제(Scorable Task)'를 입력받아 최적의 솔루션을 도출합니다. * 응용 수학, 공학, 기초 과학 등 정량적 지표로 성과를 측정할 수 있는 광범위한 과학적 난제들을 AI가 해결할 수 있는 형태로 변환합니다. ### 트리 탐색 기반의 코드 최적화 엔진 * 알파제로(AlphaZero) 알고리즘에서 영감을 받은 '상한 신뢰 한계(Upper Confidence Bound)' 트리 탐색 전략을 사용하여 수천 개의 코드 변종을 체계적으로 탐색합니다. * LLM은 기존 방법론을 재현하거나 재조합하여 새로운 연구 아이디어를 제안하고, 이를 실행 가능한 코드로 직접 구현합니다. * 샌드박스 환경에서 구현된 코드를 실행해 성능을 실시간으로 평가하며, 높은 점수를 받은 코드를 기반으로 반복적인 수정을 거쳐 성능을 개선합니다. * 모든 출력물은 실행 가능한 코드 형태로 제공되므로, 연구자가 결과를 직접 검증하고 재현하며 해석할 수 있다는 장점이 있습니다. ### 6개 과학 분야에서의 실전 성능 입증 * 유전학(Genomics), 공중 보건, 지리 공간 분석, 신경과학, 시계열 예측, 수치 분석 등 서로 다른 특성을 가진 6개 벤치마크에서 전문가 수준의 성능을 입증했습니다. * 특히 유전학 분야의 '단일 세포 RNA 시퀀싱 배치 통합' 과제에서는 기존 전문가들이 개발한 수백 개의 도구보다 뛰어난 성능을 보이는 40개의 새로운 방법론을 자동으로 발견했습니다. * 제로샷 일반화, 고차원 신호 처리, 시스템 수준의 모델링 등 인간 전문가에게도 도전적인 과제들을 성공적으로 수행하며 AI의 과학적 잠재력을 보여주었습니다. 이 시스템은 과학자가 수동적인 코딩과 디버깅 작업에서 벗어나 더 높은 수준의 가설 수립과 실험 설계에 집중할 수 있도록 돕습니다. 정량적인 평가 지표를 설정할 수 있는 연구 분야라면, AI 기반의 경험적 소프트웨어 생성 도구를 도입함으로써 연구 효율성을 극적으로 높이고 새로운 과학적 발견의 주기를 단축할 수 있을 것입니다.