Google Research / gemini

22 개의 포스트

google

Gemini provides automated feedback for theoretical computer scientists at STOC 2026 (새 탭에서 열림)

Google Research는 이론 컴퓨터 과학 분야의 최고 권위 학회인 STOC 2026 제출 논문을 대상으로, Gemini를 활용한 자동 피드백 도구를 실험적으로 도입했습니다. 이 도구는 복잡한 논리 구조와 수식을 검증하여 인간 연구자가 수개월 동안 발견하지 못한 치명적인 오류를 24시간 이내에 찾아내는 성과를 거두었습니다. 결과적으로 참여 저자의 97%가 피드백이 유용했다고 답하며, AI가 전문적인 연구 워크플로우를 보조하는 강력한 협업 도구가 될 수 있음을 증명했습니다. **추론 확장 기술을 통한 수학적 엄밀성 확보** * Gemini 2.5 Deep Think의 고급 버전에 적용된 '추론 확장(Inference Scaling)' 메서드를 활용하여 단순한 선형적 사고를 넘어 여러 해결 경로를 동시에 탐색합니다. * 다양한 추론 및 평가 흔적(traces)을 결합함으로써 LLM 특유의 환각 현상을 줄이고, 논문의 가장 핵심적인 논리적 결함에 집중할 수 있도록 최적화되었습니다. **구조화된 피드백 제공 방식** * 저자들에게는 논문의 기여도 요약, 주요 정리(Theorem) 및 보조 정리(Lemma)에 대한 구체적인 오류 지적 및 개선 제안, 오타 및 단순 교정 사항이 포함된 체계적인 리포트가 제공됩니다. * 단순한 문구 수정을 넘어 변수 이름의 불일치, 부등식의 잘못된 적용, 증명 과정에서의 논리적 공백 등 기술적인 디테일을 심층 분석합니다. **실제 연구 현장에서의 성과와 사용자 반응** * 실험에 참여한 논문의 80% 이상이 AI 리뷰를 선택했으며, 저자들은 수개월간 발견하지 못했던 '논문 전체를 부정하게 만드는 치명적인 버그'를 AI가 찾아냈다는 점에 주목했습니다. * 설문 결과 참여자의 97%가 재사용 의사를 밝혔으며, 81%는 논문의 명확성과 가독성이 크게 향상되었다고 평가했습니다. * 인간 리뷰어와 달리 중립적인 톤으로 신속하게(2일 이내) 피드백을 제공한다는 점이 큰 장점으로 꼽혔습니다. **전문가와 AI의 협업 모델 및 한계점** * 모델이 복잡한 표기법이나 그림을 해석하는 과정에서 간혹 환각을 일으키기도 하지만, 해당 분야의 전문가인 저자들은 AI의 출력물에서 '노이즈'를 걸러내고 유익한 통찰만을 선택적으로 수용하는 능력을 보여주었습니다. * 이는 AI가 인간을 대체하는 것이 아니라, 전문가의 판단을 돕고 검증의 시작점 역할을 수행하는 '보조적 파트너'로서 최적화되어 있음을 시사합니다. **교육적 가치와 미래 전망** * 설문에 응한 연구자의 75%는 이 도구가 학생들에게 수학적 엄밀성과 논문 작성법을 교육하는 데 큰 가치가 있다고 응답했습니다. * 연구 커뮤니티의 88%는 연구 프로세스 전반에 걸쳐 이러한 도구를 지속적으로 사용하기를 희망하고 있으며, Google은 향후 동료 검토(Peer Review) 과정을 대체하는 것이 아닌, 이를 보완하고 강화하는 방향으로 기술을 발전시킬 계획입니다. 연구자들은 이 도구를 단순한 자동 검토기가 아닌, 연구 초기 단계부터 논리의 빈틈을 메워주는 '상시 접속 가능한 동료 연구자'로 활용할 것을 권장합니다. 특히 복잡한 증명이 포함된 논문을 투고하기 전, 예상치 못한 논리적 오류를 사전에 필터링하는 용도로 매우 유용합니다.

google

Generative UI: A rich, custom, visual interactive user experience for any prompt (새 탭에서 열림)

구글 리서치가 발표한 '제너레이티브 UI(Generative UI)'는 AI 모델이 단순한 텍스트 답변을 넘어 웹페이지, 게임, 도구, 시뮬레이션 등 완전한 사용자 경험(UX)을 실시간으로 생성하는 새로운 기술 패러다임입니다. 이 기술은 사용자의 질문이나 지시사항의 의도를 파악하여 고정된 형식이 아닌, 목적에 최적화된 맞춤형 인터페이스를 즉석에서 설계하고 코딩합니다. 현재 제미나이(Gemini) 앱과 구글 검색의 AI 모드에 통합되어 정적 인터페이스를 동적이고 상호작용 가능한 디지털 환경으로 변모시키고 있습니다. **정적 인터페이스를 넘어서는 새로운 패러다임** * 사용자가 카탈로그에서 기존 앱을 선택하는 대신, AI가 사용자의 니즈에 맞춰 동적으로 인터페이스를 생성하여 제공합니다. * 단일 단어부터 상세한 지침까지 모든 형태의 프롬프트에 대응하며, 단순한 정보 전달을 넘어 학습, 놀이, 탐색이 가능한 상호작용 환경을 구축합니다. * 사용자 평가 결과, 생성 속도를 제외한 품질 측면에서 일반적인 LLM의 텍스트 출력보다 제너레이티브 UI에 대한 선호도가 압도적으로 높게 나타났습니다. **실시간 제품 통합 및 활용 사례** * **제미나이 앱(Dynamic View):** 사용자의 대상층(예: 5세 아이 vs 성인)에 따라 콘텐츠와 기능을 다르게 설계하며, 패션 조언이나 이벤트 계획 등 실질적인 과업 수행을 돕습니다. * **구글 검색(AI Mode):** 제미나이 3의 멀티모달 이해 능력과 에이전트 코딩 역량을 활용하여 복잡한 과학적 시뮬레이션(예: RNA 중합효소 작용 기전) 등을 즉석에서 시각화합니다. * **맞춤형 도구 생성:** 소셜 미디어 포스트 갤러리 제작부터 수학 교육용 게임까지, 프롬프트의 의도에 따라 완전히 고유한 레이아웃과 기능을 갖춘 도구를 생성합니다. **제너레이티브 UI의 기술적 구현 원리** * **제미나이 3 Pro 기반:** 구글의 최신 모델을 핵심 엔진으로 사용하며 세 가지 주요 구성 요소를 추가하여 완성도를 높였습니다. * **도구 액세스(Tool Access):** 서버를 통해 이미지 생성 및 웹 검색 도구에 접근하며, 이를 통해 생성된 결과물을 브라우저에 직접 전송하여 효율성을 극대화합니다. * **정교한 시스템 지침:** 목표 설정, 계획 수립, 기술 사양 및 오류 방지 팁이 포함된 상세한 가이드를 통해 모델이 기능적인 UI를 설계하도록 유도합니다. * **사후 처리(Post-processing):** 모델이 출력한 결과물을 사후 처리 프로세스에 통과시켜 흔히 발생하는 기술적 오류를 수정하고 안정성을 확보합니다. 제너레이티브 UI는 소프트웨어가 사용자의 언어만큼이나 유연하고 적응력 있게 변화하는 미래를 보여줍니다. 구글 검색의 AI 모드나 제미나이 앱의 실험적 기능들을 통해, 정해진 틀에 갇히지 않은 진정한 개인화된 인터페이스를 직접 경험해 보시길 권장합니다.

google

StreetReaderAI: Towards making street view accessible via context-aware multimodal AI (새 탭에서 열림)

StreetReaderAI는 구글 리서치에서 개발한 시각장애인 및 저시력자를 위한 혁신적인 스트리트 뷰 프로토타입으로, 멀티모달 AI인 Gemini를 활용해 시각적 정보를 실시간 음성 정보로 변환합니다. 기존 지도 서비스가 제공하지 못했던 스트리트 뷰 이미지의 맥락과 지리적 특성을 실시간 대화형 인터페이스로 설명함으로써, 시각장애인이 가상 세계를 자유롭게 탐색하고 실제 경로를 미리 파악할 수 있도록 돕는 것이 이 기술의 핵심입니다. **사용자 중심의 직관적 내비게이션** * 키보드 화살표 키나 음성 명령을 사용하여 게임을 하듯 가상 공간 내 시점 전환 및 이동이 가능합니다. * 사용자가 시점을 회전할 때마다 현재 방위(예: "북동쪽을 보고 있습니다")와 정면에 랜드마크나 장소가 있는지를 음성으로 즉각 피드백합니다. * "가상 걸음(Virtual steps)" 기능을 통해 앞뒤로 이동하며 이동 거리와 도로 정보, 주변 상점 및 시설물에 대한 정보를 실시간으로 수신할 수 있습니다. **AI 디스크라이버(AI Describer)를 통한 상황별 맥락 인식** * 단순한 이미지 분석을 넘어 사용자의 위도·경도, 도로 데이터, 현재 시야의 스트리트 뷰 이미지를 결합해 맞춤형 설명을 생성합니다. * 보행 안전과 내비게이션 정보에 집중하는 '기본 모드'와 지역의 역사적·건축적 배경을 상세히 설명하는 '투어 가이드 모드'를 제공합니다. * 사용자가 현재 장면에서 궁금해할 만한 후속 질문(예: "저 건물의 입구는 어디인가요?")을 AI가 스스로 예측하여 제안함으로써 탐색의 효율성을 높였습니다. **AI 채팅과 강력한 세션 메모리 기능** * Gemini Multimodal Live API를 활용하여 사용자와 실시간 대화가 가능하며, 사용자의 질문에 맞춰 시각적 정보를 해석합니다. * 약 100만 토큰 이상의 긴 컨텍스트 윈도우를 활용해 사용자가 세션 동안 탐색한 모든 경로와 이미지를 기억합니다. * 이를 통해 "방금 지나온 버스 정류장에 벤치가 있었니?" 또는 "아까 본 편의점에서 여기까지 얼마나 떨어져 있어?"와 같은 과거의 맥락이 포함된 복합적인 질문에 정확히 답변할 수 있습니다. **사용자 평가 및 실무적 시사점** 11명의 시각장애인을 대상으로 한 연구 결과, 사용자들은 StreetReaderAI를 통해 목적지의 지형지물을 미리 확인하고 보행 경로를 계획하는 데 큰 도움을 얻었습니다. 이 기술은 수조 개의 스트리트 뷰 이미지를 텍스트 기반의 데이터로 변환할 필요 없이, 필요할 때마다 실시간으로 AI가 해석해 준다는 점에서 확장성이 매우 높습니다. 향후 이와 같은 멀티모달 AI 기술이 지도 앱에 통합된다면 시각장애인의 이동권과 정보 접근성을 획기적으로 개선할 수 있을 것입니다.

google

Google Earth AI: Unlocking geospatial insights with foundation models and cross-modal reasoning (새 탭에서 열림)

구글 어스 AI(Google Earth AI)는 최신 제미나이(Gemini) 모델 기반의 추론 에이전트와 지리 공간 파운데이션 모델을 결합하여, 지구 규모의 복잡한 문제에 대해 실질적인 통찰을 제공하는 생태계입니다. 이 시스템은 위성 이미지, 인구 통계, 환경 데이터 등 서로 다른 영역의 정보를 통합 분석함으로써 기존 단일 모델로는 해결하기 어려웠던 교차 도메인 추론을 가능하게 합니다. 구글은 이를 통해 원격 탐사 및 인구 역학 분야에서 상태 최첨단(SOTA) 성능을 달성했으며, 구글 어스와 구글 클라우드를 통해 이러한 기능을 개발자와 기업에 확대 제공하고 있습니다. **원격 탐사 파운데이션 모델의 혁신** * 시각-언어 모델(VLM), 개방형 어휘 객체 탐지(Open-vocabulary detection), 적응형 비전 백본의 세 가지 핵심 기능을 통해 위성 이미지 분석 속도와 정확도를 대폭 향상했습니다. * 사용자는 "폭풍 후 침수된 모든 도로 찾기"와 같은 자연어 질의를 통해 고해상도 항공 이미지에서 즉각적이고 정확한 답변을 얻을 수 있습니다. * 텍스트 기반 이미지 검색 작업에서 기존 대비 평균 16% 이상의 성능 향상을 보였으며, 미학습 객체에 대한 제로샷(Zero-shot) 탐지 정확도는 기존 베이스라인 모델보다 2배 이상 높습니다. **인구 역학 및 모빌리티 AI 분석** * 인구 역학 파운데이션(Population Dynamics Foundations) 모델을 통해 사람과 장소 간의 복잡한 상호작용을 이해하고, 시간에 따른 인구 이동 및 활동 변화를 분석합니다. * 전 세계 17개국에 걸친 일관된 임베딩 데이터와 매월 업데이트되는 시계열 정보를 제공하여, 인구 밀도, 수목 피복도, 야간 조명 등 다양한 지표를 정밀하게 예측합니다. * 실제 활용 사례로 옥스퍼드 대학의 연구에 따르면, 브라질의 뎅기열 확산 예측 모델에 이 임베딩을 적용했을 때 12개월 장기 예측 정확도(R²)가 0.456에서 0.656으로 크게 개선되었습니다. **지능형 공간 추론 에이전트의 역할** * 제미나이 모델을 기반으로 하는 공간 추론 에이전트는 복잡하고 추상적인 질문을 단계별 실행 계획으로 분해하는 지능형 오케스트레이터 역할을 수행합니다. * 에이전트는 파운데이션 모델 호출, 방대한 데이터 저장소 쿼리, 지리 공간 분석 도구 활용 등을 직접 실행하며, 각 단계에서 도출된 결과를 종합하여 최종적인 해답을 제시합니다. * 예를 들어 "허리케인 상륙 가능성이 높은 지역과 가장 취약한 공동체는 어디인가?"라는 질문에 대해 이미지, 환경, 인구 데이터를 융합 분석하여 구체적인 대비책을 도출할 수 있습니다. 구글 어스 AI는 기후 변화 대응, 재난 관리, 도시 계획 등 전 지구적 과제를 해결하려는 기업과 연구자들에게 강력한 도구를 제공합니다. 현재 구글은 개발자와 기업 사용자를 대상으로 이 새로운 기능에 대한 접근 권한을 확대하고 있으므로, 고도화된 공간 데이터 분석이 필요한 조직은 구글 클라우드 및 구글 어스 AI 웹사이트를 통해 기술 도입을 검토할 것을 권장합니다.

google

Teaching Gemini to spot exploding stars with just a few examples (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

google

XR Blocks: Accelerating AI + XR innovation (새 탭에서 열림)

Google XR 팀이 공개한 **XR Blocks**는 인공지능(AI)과 확장 현실(XR) 기술의 결합을 가속화하기 위한 오픈 소스 프레임워크로, 몰입형 지능형 컴퓨팅 환경을 구축하는 데 따르는 기술적 장벽을 낮추기 위해 설계되었습니다. 기존의 XR 개발이 인지, 렌더링, 상호작용 시스템을 수동으로 통합해야 하는 고마찰 과정이었다면, XR Blocks는 이를 모듈화된 '플러그 앤 플레이' 방식으로 전환하여 창작자가 복잡한 하위 시스템 구현 대신 사용자 경험 설계에 집중할 수 있게 합니다. 이 프레임워크는 WebXR, three.js, LiteRT, Gemini 등 접근성 높은 기술을 기반으로 하며, 데스크톱 시뮬레이터와 Android XR 기기 모두에서 작동하는 범용성을 갖추고 있습니다. **창작자 중심의 설계 원칙** * **단순성과 가독성:** Python의 철학(Zen of Python)에서 영감을 받아, 개발자의 스크립트가 마치 고수준의 경험을 묘사하는 문장처럼 읽힐 수 있도록 깨끗하고 직관적인 추상화를 제공합니다. * **창작자 경험 우선:** 센서 데이터 융합이나 AI 모델 통합과 같은 복잡한 '하위 배관 작업'에 시간을 허비하지 않고, 지능적이고 인지적인 XR 애플리케이션의 핵심 로직 개발에만 몰입할 수 있는 환경을 조성합니다. * **실용적 유연성:** 기술의 빠른 변화에 대응하기 위해 완벽한 단일 체계를 지향하기보다, 모듈화되고 적응력 높은 아키텍처를 채택하여 다양한 기기와 환경에서 유연하게 작동하도록 했습니다. **리얼리티 모델과 추상화 계층** * **Script와 실행의 분리:** 상호작용의 내용(What)을 정의하는 'Script'와 이를 저수준에서 구현하는 방식(How)을 분리하여 시스템의 복잡도를 관리합니다. * **사용자 및 물리 세계 인지:** 손의 움직임, 시선(Gaze), 아바타와 같은 사용자 요소와 깊이 맵(Depth), 조명 추정, 객체 인식 등 물리적 환경 정보를 손쉽게 쿼리하고 활용할 수 있습니다. * **AI 및 지능형 에이전트 통합:** 가상 인터페이스(UI)뿐만 아니라 맥락을 이해하고 능동적으로 제안을 수행하는 'Sensible Agent'와 같은 AI 기능을 프레임워크 내에서 직접 구현할 수 있습니다. **실제 적용 사례 및 가치** * **XR 리얼리티 가속화:** 깊이 인식과 물리 기반 상호작용을 시뮬레이션 환경에서 프로토타이핑하고, 동일한 코드를 실제 XR 기기에 즉시 배포하여 개발 사이클을 단축할 수 있습니다. * **맞춤형 상호작용 설계:** 사용자 정의 제스처 모델을 데스크톱 시뮬레이터와 온디바이스 XR 환경에 원활하게 통합하여 독창적인 인터랙션을 실험할 수 있습니다. 이 프레임워크는 아이디어를 인터랙티브한 프로토타입으로 빠르게 전환하고자 하는 개발자와 연구자들에게 강력한 도구가 될 것입니다. 특히 웹 기반 기술을 활용하므로 높은 접근성을 제공하며, Android XR 생태계와의 호환성을 통해 차세대 AI+XR 애플리케이션 개발의 표준적인 출발점을 제시합니다.

google

AI as a research partner: Advancing theoretical computer science with AlphaEvolve (새 탭에서 열림)

Google DeepMind는 LLM 기반 코딩 에이전트인 AlphaEvolve를 활용해 복잡도 이론(Complexity Theory)의 난제를 해결하고 새로운 수학적 구조를 발견하는 성과를 거두었습니다. 이 연구는 AI가 단순히 문제를 푸는 수준을 넘어, '리프팅(Lifting)' 기법을 통해 유한한 구조를 최적화함으로써 보편적인 수학적 정리를 증명하는 강력한 연구 파트너가 될 수 있음을 보여줍니다. 결과적으로 MAX-4-CUT 문제의 근사 난이도와 무작위 그래프 특성 인증 분야에서 기존 기록을 경신하며 이론 전산학의 지평을 넓혔습니다. ### AlphaEvolve의 반복적 진화 메커니즘 * AlphaEvolve는 Gemini와 같은 LLM을 기반으로 코드를 반복적으로 진화시키는 피드백 루프 시스템입니다. * 초기 코드 조각(Population)에서 시작하여 생성된 구조의 성능을 평가하고, 가장 우수한 코드를 LLM이 변형(Morph)하여 더 나은 솔루션을 찾아가는 과정을 반복합니다. * 수학 및 이론 전산학에서 요구되는 절대적인 정확성을 보장하기 위해, AI가 생성한 모든 수학적 구조는 인간의 개입 없이 컴퓨터 프로그램에 의해 자동으로 검증되도록 설계되었습니다. ### '리프팅(Lifting)'을 통한 유한 구조의 보편적 증명 확장 * AI는 특정 사례(유한한 구조)를 찾는 데 능숙하지만, 전산학 정리는 모든 문제 크기($\forall n$)에 대해 성립해야 한다는 간극이 존재합니다. * 연구진은 전체 증명 프레임워크 내에서 특정 부분(유한한 구조)만 AI로 최적화하고, 이를 다시 전체 증명에 결합하여 보편적인 결과로 확장하는 '리프팅' 기법을 도입했습니다. * 특히 기존에 연구자들이 수작업으로 설계하던 복잡한 '가젯 리덕션(Gadget reduction)'을 AlphaEvolve가 수행하게 함으로써, 인간이 발견하기 어려운 정교하고 효율적인 구조를 도출해냈습니다. ### 복잡도 이론에서의 주요 성과 * **MAX-4-CUT 문제의 한계 돌파:** 그래프의 노드를 4개의 집합으로 분할할 때 가로지르는 엣지를 최대화하는 문제에서, 기존 기록을 경신하는 새로운 근사 불가능성(Inapproximability) 하한선을 제시했습니다. * **무작위 그래프(Random Graphs) 인증:** 무작위 그래프의 특정 성질을 인증하는 데 필요한 '평균 사례 난이도(Average-case hardness)'의 경계를 더욱 정밀하게 좁히는 데 성공했습니다. * 이러한 성과들은 AI가 발견한 유한한 구조를 기존의 견고한 수학적 증명 체계에 성공적으로 통합할 수 있음을 입증합니다. 이 연구는 AI가 정교한 증명 요소를 생성하고 이를 시스템이 검증하는 협업 모델이 이론적 난제 해결에 실질적인 돌파구를 마련할 수 있음을 보여줍니다. 이론 전산학 연구자들은 앞으로 AI를 단순한 보조 도구가 아닌, 인간의 직관을 넘어서는 복잡한 증명 구조를 설계하고 최적화하는 핵심 연구 파트너로 활용할 수 있을 것입니다.

google

The anatomy of a personal health agent (새 탭에서 열림)

구글 리서치는 웨어러블 기기의 시계열 데이터와 혈액 지표 등 다중 모드(multimodal) 데이터를 분석하여 개인화된 건강 통찰력을 제공하는 LLM 기반의 '개인 건강 에이전트(PHA)' 연구 프레임워크를 공개했습니다. 이 시스템은 데이터 과학, 도메인 전문가, 건강 코치라는 세 가지 전문 서브 에이전트로 구성된 멀티 에이전트 아키텍처를 채택하여 사용자의 복잡하고 모호한 건강 질문에 정밀하게 대응합니다. 대규모 실제 사용자 데이터를 활용한 광범위한 평가 결과, PHA는 기존 단일 LLM 대비 데이터 분석 및 의학적 근거 기반 조언 측면에서 월등한 성능을 입증하며 차세대 개인용 건강 관리 도구의 가능성을 제시했습니다. **사용자 중심 설계와 멀티 에이전트 구조** * 1,300개 이상의 실제 건강 질문과 500명 이상의 사용자 설문 조사를 분석하여 일반 건강 지식 이해, 개인 데이터 해석, 실천 가능한 조언, 증상 평가라는 4가지 핵심 요구 사항을 도출했습니다. * 인간 전문가 팀의 업무 방식을 모방하여 데이터 과학자, 도메인 전문가, 개인 건강 코치 역할을 수행하는 서브 에이전트들이 협업하는 구조를 설계했습니다. * 약 1,200명의 사용자로부터 동의를 얻은 핏빗(Fitbit) 활동 데이터, 건강 설문, 혈액 검사 결과를 포함한 리얼 월드 데이터셋을 평가에 활용하여 실무적인 유효성을 검증했습니다. **데이터 과학 에이전트: 시계열 데이터의 수치적 해석** * 웨어러블 기기의 복잡한 시계열 데이터를 분석하며, "최근에 더 건강해졌나요?"와 같은 사용자의 모호한 질문을 구체적인 통계 분석 계획으로 변환합니다. * 분석 계획 수립과 코드 생성의 2단계 프로세스를 거쳐 통계적으로 유효한 답변을 도출하며, 생성된 코드는 실제 데이터에서 즉시 실행 가능한 수준의 정확도를 갖췄습니다. * 평가 결과, 데이터 분석 계획 수립 능력에서 75.6%의 점수를 기록하며 기본 모델(Gemini, 53.7%)을 크게 상회하는 성능을 보였습니다. **도메인 전문가 에이전트: 근거 기반의 신뢰할 수 있는 정보** * NCBI(미국 국립생물정보센터)와 같은 권위 있는 외부 데이터베이스에 접근하여 검증된 사실에 기반한 답변을 생성하는 다단계 추론 프레임워크를 사용합니다. * 사용자의 기저 질환이나 개인 프로필에 맞춰 정보를 맞춤화하여 제공하며, 전문 보건 자격시험 문항 및 감별 진단 능력을 평가하는 벤치마크에서 우수한 성과를 거두었습니다. * 의료 전문가와 일반 소비자 모두를 대상으로 한 인간 평가를 통해 정보의 정확성과 안전성을 동시에 확보했습니다. 이 연구는 범용 LLM의 한계를 넘어 전문화된 에이전트 간의 협업이 개인화된 의료 AI 서비스에서 얼마나 중요한지를 잘 보여줍니다. 앞으로 이러한 기술이 실제 서비스에 적용된다면, 사용자는 자신의 건강 데이터를 단순히 수집하는 것을 넘어 능동적으로 이해하고 실질적인 생활 습관 변화를 이끌어내는 강력한 조력자를 얻게 될 것입니다.

google

Towards better health conversations: Research insights on a “wayfinding” AI agent based on Gemini (새 탭에서 열림)

구글 리서치는 제미나이(Gemini)를 기반으로 한 연구용 프로토타입 '웨이파인딩 AI(Wayfinding AI)'를 통해 건강 정보 탐색 경험을 혁신하는 연구 결과를 발표했습니다. 이 시스템은 단순히 질문에 답하는 기존의 수동적인 방식을 넘어, 사용자에게 능동적으로 질문을 던져 구체적인 상황과 의도를 파악함으로써 더욱 개인화되고 정확한 정보를 제공합니다. 연구 결과, 이러한 맥락 탐색형(Context-seeking) 대화 방식은 사용자가 자신의 건강 문제를 더 명확하게 설명하도록 돕고 정보의 신뢰도와 만족도를 크게 높이는 것으로 나타났습니다. ### 기존 온라인 건강 정보 탐색의 한계 * 일반 사용자는 의학적 전문 지식이 부족하여 자신의 증상을 정확한 용어로 표현하는 데 어려움을 겪으며, 검색창에 모호한 단어들을 나열하는 경향이 있습니다. * 현재 대부분의 AI 모델은 단일 질문에 대해 포괄적인 답변만 내놓는 '수동적 답변자' 역할에 머물러 있어, 개인의 독특한 상황이나 맥락을 반영하지 못합니다. * 연구에 참여한 사용자들은 AI가 답변을 바로 내놓기보다 의사처럼 추가 질문을 통해 상황을 먼저 파악하는 '답변 유예(Deferred-answer)' 방식을 더 선호하며, 이를 통해 더 높은 신뢰감과 안도감을 느꼈습니다. ### 웨이파인딩 AI의 3가지 핵심 설계 원칙 * **능동적 대화 가이드:** 매 대화 턴마다 최대 3개의 정교한 질문을 사용자에게 던져 모호함을 줄이고, 사용자가 자신의 건강 상태를 체계적으로 설명할 수 있도록 유도합니다. * **단계별 최선 답변(Best-effort answers):** 추가 질문에 대한 답을 얻기 전이라도 현재까지 공유된 정보를 바탕으로 최선의 답변을 즉시 제공합니다. 다만, 더 많은 정보가 공유될수록 답변의 정확도가 높아질 수 있음을 명시하여 지속적인 참여를 독려합니다. * **투명한 추론 과정:** 사용자의 추가 답변이 이전 답변을 어떻게 구체화하고 개선했는지 그 논리적 과정을 설명함으로써 AI의 판단 근거를 명확히 공개합니다. ### 상호작용을 극대화하는 2단 인터페이스 설계 * 대화 내용과 추가 질문이 나타나는 왼쪽 열과, 상세 답변 및 설명이 표시되는 오른쪽 열로 구성된 2단 레이아웃을 채택했습니다. * 이러한 분리형 UI는 긴 답변 텍스트 속에 핵심적인 추가 질문이 묻히는 현상을 방지하여 사용자가 대화의 흐름을 놓치지 않게 합니다. * 사용자는 자신의 상황이 충분히 전달되었다고 판단될 때만 오른쪽의 상세 정보 패널을 깊이 있게 탐색할 수 있어 정보 과부하를 줄여줍니다. ### 사용자 연구 및 성능 검증 * 130명의 일반인을 대상으로 제미나이 1.5 플래시(Gemini 1.5 Flash) 기본 모델과 웨이파인딩 AI를 비교하는 무작위 사용자 연구를 진행했습니다. * 평가 결과, 웨이파인딩 AI는 정보의 유용성, 질문의 관련성, 상황 맞춤형 답변, 사용자 의도 파악 등 모든 지표에서 기본 모델보다 높은 점수를 받았습니다. * 참가자들은 AI가 질문을 통해 정보를 수집하는 과정이 마치 실제 전문 의료진과 상담하는 것과 유사한 경험을 제공하며, 결과적으로 더 개인화된 느낌을 준다고 평가했습니다. 이 연구는 건강과 같이 복잡하고 민감한 분야에서 AI가 단순히 지식을 전달하는 백과사전 역할에 그치지 않고, 사용자의 길을 안내하는 '길잡이(Wayfinder)' 역할을 수행해야 함을 시사합니다. 향후 AI 서비스 설계 시, 답변의 정확도만큼이나 사용자의 맥락을 이끌어내는 능동적인 대화 설계가 사용자 경험의 핵심 차별화 요소가 될 것으로 보입니다.

google

Accelerating scientific discovery with AI-powered empirical software (새 탭에서 열림)

구글 리서치가 과학적 발견을 가속화하기 위해 '경험적 소프트웨어(Empirical Software)'를 자동으로 설계하고 최적화하는 새로운 AI 시스템을 공개했습니다. 이 시스템은 제미나이(Gemini) 모델과 트리 탐색 알고리즘을 결합하여 과학적 가설을 검증하는 맞춤형 코드를 생성하며, 유전학부터 시계열 예측까지 6개 분야의 복잡한 벤치마크에서 전문가 수준의 성과를 거두었습니다. 이를 통해 기존에 수개월이 걸리던 연구 탐색 과정을 단 몇 시간으로 단축하여 과학적 혁신의 병목 현상을 해결할 수 있는 가능성을 제시했습니다. ### 경험적 소프트웨어와 점수화 가능한 과제 * 단순히 기능적인 정확성만을 따지는 일반 소프트웨어와 달리, 사전에 정의된 '품질 점수'를 극대화하는 것을 목표로 하는 '경험적 소프트웨어' 개념을 핵심으로 합니다. * 문제 설명, 평가 지표, 학습/검증 데이터를 포함한 '점수화 가능한 과제(Scorable Task)'를 입력받아 최적의 솔루션을 도출합니다. * 응용 수학, 공학, 기초 과학 등 정량적 지표로 성과를 측정할 수 있는 광범위한 과학적 난제들을 AI가 해결할 수 있는 형태로 변환합니다. ### 트리 탐색 기반의 코드 최적화 엔진 * 알파제로(AlphaZero) 알고리즘에서 영감을 받은 '상한 신뢰 한계(Upper Confidence Bound)' 트리 탐색 전략을 사용하여 수천 개의 코드 변종을 체계적으로 탐색합니다. * LLM은 기존 방법론을 재현하거나 재조합하여 새로운 연구 아이디어를 제안하고, 이를 실행 가능한 코드로 직접 구현합니다. * 샌드박스 환경에서 구현된 코드를 실행해 성능을 실시간으로 평가하며, 높은 점수를 받은 코드를 기반으로 반복적인 수정을 거쳐 성능을 개선합니다. * 모든 출력물은 실행 가능한 코드 형태로 제공되므로, 연구자가 결과를 직접 검증하고 재현하며 해석할 수 있다는 장점이 있습니다. ### 6개 과학 분야에서의 실전 성능 입증 * 유전학(Genomics), 공중 보건, 지리 공간 분석, 신경과학, 시계열 예측, 수치 분석 등 서로 다른 특성을 가진 6개 벤치마크에서 전문가 수준의 성능을 입증했습니다. * 특히 유전학 분야의 '단일 세포 RNA 시퀀싱 배치 통합' 과제에서는 기존 전문가들이 개발한 수백 개의 도구보다 뛰어난 성능을 보이는 40개의 새로운 방법론을 자동으로 발견했습니다. * 제로샷 일반화, 고차원 신호 처리, 시스템 수준의 모델링 등 인간 전문가에게도 도전적인 과제들을 성공적으로 수행하며 AI의 과학적 잠재력을 보여주었습니다. 이 시스템은 과학자가 수동적인 코딩과 디버깅 작업에서 벗어나 더 높은 수준의 가설 수립과 실험 설계에 집중할 수 있도록 돕습니다. 정량적인 평가 지표를 설정할 수 있는 연구 분야라면, AI 기반의 경험적 소프트웨어 생성 도구를 도입함으로써 연구 효율성을 극적으로 높이고 새로운 과학적 발견의 주기를 단축할 수 있을 것입니다.

google

How Google’s AI can help transform health professions education (새 탭에서 열림)

구글은 전 세계적인 의료 인력 부족 문제를 해결하기 위해 AI를 활용한 보건 의료 교육 혁신 방안을 연구하고 있습니다. 최근 발표된 두 가지 연구에 따르면, 학습자 중심의 맞춤형 피드백을 제공하는 'LearnLM' 모델이 기존 AI 모델보다 뛰어난 교육적 성과를 보였으며, 이는 의료진 교육의 질을 높이는 강력한 도구가 될 수 있음을 시사합니다. 이러한 연구 결과는 실제 의료 교육 현장에서 AI가 단순한 정보 전달자를 넘어 숙련된 튜터와 같은 역할을 수행할 수 있다는 가능성을 입증합니다. **의료 학습자 중심의 디자인과 정성적 연구** * **참여형 디자인 워크숍:** 의료 학생, 임상의, 교육자, AI 연구자 등 다학제적 전문가들이 모여 의료 교육에 AI를 통합하기 위한 기회를 정의하고, 임상 추론 학습을 돕는 AI 튜터 프로토타입을 설계했습니다. * **학습자 니즈 파악:** 의대생 및 레지던트를 대상으로 한 정성적 연구 결과, 학습자들은 개인의 지식 수준과 학습 스타일에 맞춰 반응하는 도구를 선호한다는 점이 밝혀졌습니다. * **프리셉터(Preceptor) 행동의 중요성:** 학습자들은 인지 부하 관리, 건설적인 피드백 제공, 질문과 성찰 유도 등 실제 지도 교수와 유사한 AI의 행동이 임상 추론 능력을 키우는 데 필수적이라고 평가했습니다. **LearnLM의 교육적 역량 및 정량적 평가** * **비교 평가 수행:** 교육용으로 미세 조정(fine-tuning)된 'LearnLM'과 기본 모델인 'Gemini 1.5 Pro'의 성능을 비교하기 위해 의료 교육 주제를 아우르는 50개의 가상 시나리오를 설계했습니다. * **현장 중심의 시나리오:** 혈소판 활성화와 같은 기초 의학부터 신생아 황달 같은 임상 주제까지, 실제 의과대학의 핵심 역량 표준을 반영한 시나리오를 통해 모델의 실효성을 검증했습니다. * **블라인드 테스트 결과:** 의대생들은 LearnLM이 학습 목표 달성, 사용 편의성, 이해도 측면에서 더 우수하다고 평가했으며, 특히 실제 학습 상황을 가정한 290개의 대화 데이터를 통해 그 성능이 입증되었습니다. **AI 튜터로서의 교육학적 우수성** * **전문가 평가:** 전문의 교육자들은 LearnLM이 기본 모델에 비해 훨씬 더 나은 교육법(Pedagogy)을 보여주며, "매우 우수한 인간 튜터처럼 행동한다"고 분석했습니다. * **비판적 사고 유도:** 단순히 정답을 알려주는 것에 그치지 않고, 학생이 스스로 생각할 수 있도록 유도하고 부족한 부분을 정확히 짚어주는 능력이 탁월한 것으로 나타났습니다. * **최신 모델 적용:** 연구에서 검증된 LearnLM의 혁신적인 교육 기능들은 현재 'Gemini 2.5 Pro' 모델에 통합되어 실무에서 활용 가능한 상태입니다. 이러한 연구 결과는 AI가 의료 교육의 개인화를 실현하고, 바쁜 임상 현장에서 교육자들의 부담을 덜어주는 동시에 차세대 의료 인력의 역량을 효과적으로 강화할 수 있음을 보여줍니다. 향후 의료 교육 기관에서는 Gemini 2.5 Pro와 같은 모델을 도입하여 학생들에게 24시간 접근 가능한 맞춤형 임상 지도 서비스를 제공하는 것을 적극적으로 고려해볼 수 있습니다.

google

A scalable framework for evaluating health language models (새 탭에서 열림)

구글 리서치는 건강 분야 대규모 언어 모델(LLM)의 성능을 정밀하고 효율적으로 평가하기 위한 새로운 프레임워크인 '적응형 정밀 불리언 루브릭(Adaptive Precise Boolean rubrics)'을 공개했습니다. 이 방법론은 복잡하고 주관적이기 쉬운 평가 기준을 세분화된 예/아니오(Yes/No) 질문으로 변환하고, 생성된 답변과 관련된 질문만 동적으로 필터링하여 평가 효율성을 극대화합니다. 결과적으로 기존 리커트(Likert) 척도 방식보다 평가 시간을 50% 이상 단축하면서도 평가자 간 일치도(Inter-rater reliability)를 크게 향상시키는 성과를 거두었습니다. ## 정밀 불리언 루브릭의 설계 원리 * **복잡한 기준의 세분화**: 기존의 서술형 답변이나 5점 척도(Likert scale) 방식은 평가자의 주관이 개입될 여지가 많아 일관성이 떨어집니다. 이를 해결하기 위해 평가 항목을 아주 작은 단위의 불리언(Boolean, 참/거짓) 질문으로 쪼개어 평가자의 판단을 단순화했습니다. * **객관성 및 일관성 확보**: 예/아니오 형태의 단순한 질문 구조는 평가자 간의 해석 차이를 줄여주며, 결과적으로 내급 상관 계수(ICC)로 측정되는 평가자 간 신뢰도를 대폭 높여줍니다. * **대사 건강 도메인 적용**: 당뇨병, 심혈관 질환, 비만 등 복잡한 전문 지식이 필요한 대사 건강 분야를 대상으로 루브릭을 설계하여 실무적인 유효성을 검증했습니다. ## 적응형 필터링을 통한 효율성 극대화 * **질문 수 폭증 문제 해결**: 평가 기준을 세분화하면 전체 질문 수가 급격히 늘어나 인간 평가자의 부담이 커지는 문제가 발생합니다. 이를 해결하기 위해 '적응형(Adaptive)' 메커니즘을 도입했습니다. * **LLM 기반 자동 분류**: 제미나이(Gemini) 모델을 제로샷 분류기로 활용하여, 사용자의 질문과 모델의 답변 내용을 분석한 뒤 해당 상황에 꼭 필요한 핵심 루브릭 질문만 동적으로 선별합니다. * **전문가 검증을 통한 신뢰 확보**: 의료 전문가 3인의 교차 검증을 통해 '인간 적응형(Human-Adaptive)' 기준 데이터를 구축하고, 모델이 필터링한 질문 세트가 실제 의학적 관점에서도 타당한지 확인했습니다. ## 평가 신뢰도 및 성능 지표 개선 * **평가 시간 50% 단축**: 적응형 루브릭을 적용한 결과, 기존 리커트 척도 방식보다 평가에 소요되는 시간을 절반 이상 줄일 수 있었으며 이는 대규모 모델 평가의 확장성을 확보해 줍니다. * **신뢰도 지표 향상**: 인간 전문가와 비전문가, 그리고 자동화된 평가 도구 간의 상관관계가 기존 방식보다 높게 나타났으며, 이는 단순화된 점수 체계가 오히려 더 높은 품질의 신호를 제공함을 시사합니다. * **모델 품질 민감도 측정**: 세분화된 불리언 루브릭은 모델 답변의 미세한 결함이나 개선이 필요한 지점을 더 정확하게 식별해내며, 이를 통해 체계적인 모델 고도화가 가능해집니다. 이 프레임워크는 건강 및 의료와 같이 높은 안전성과 정확성이 요구되는 전문 분야에서 LLM을 평가할 때 직면하는 비용과 신뢰성 문제를 동시에 해결할 수 있는 실용적인 대안을 제시합니다. 특히 인간의 전문적인 판단과 모델의 자동화된 필터링을 결합함으로써 차세대 의료 AI 서비스의 검증 표준으로 활용될 가능성이 높습니다.

google

Achieving 10,000x training data reduction with high-fidelity labels (새 탭에서 열림)

구글 애즈(Google Ads) 연구팀은 대규모 언어 모델(LLM) 파인튜닝에 필요한 학습 데이터의 양을 획기적으로 줄이면서도 모델의 정확도를 높일 수 있는 새로운 능동 학습(Active Learning) 기반의 큐레이션 프로세스를 개발했습니다. 이 방법론은 수천억 개의 예시 중 전문가의 주석이 가장 가치 있는 데이터를 반복적으로 식별하여, 기존 10만 개 이상의 데이터가 필요했던 작업을 500개 미만의 데이터만으로 수행하면서 전문가와의 정렬도를 최대 65% 향상시켰습니다. 이를 통해 안전 정책 변화나 새로운 유형의 부적절한 콘텐츠에 대응하는 비용을 크게 절감하고 모델의 신뢰성을 확보할 수 있게 되었습니다. **능동 학습 기반의 데이터 큐레이션 프로세스** * **초기 라벨링 및 클러스터링**: 먼저 퓨샷(Few-shot) 프롬프트가 적용된 LLM-0 모델을 사용하여 대규모 데이터셋을 '정책 위반' 또는 '정상'으로 분류합니다. 이때 발생하는 데이터 불균형과 모델의 낮은 정답률을 해결하기 위해, 각 라벨별로 데이터를 클러스터링합니다. * **경계 영역 샘플링**: 서로 다른 라벨을 가졌음에도 클러스터가 겹치는 구간, 즉 모델이 혼동을 느끼는 결정 경계(Decision Boundary) 부근에서 서로 가장 가까운 데이터 쌍을 찾아냅니다. * **정보성 및 다양성 확보**: 추출된 데이터 쌍 중에서도 전체 탐색 공간을 가장 잘 대변하는 샘플을 우선적으로 선별하여 전문가에게 전달함으로써, 적은 수의 샘플로도 높은 정보성과 다양성을 동시에 확보합니다. * **반복적 파인튜닝**: 전문가가 라벨링한 데이터를 평가용과 학습용으로 나누어 모델을 파인튜닝하며, 모델과 전문가 사이의 정렬도가 전문가들 사이의 합의 수준에 도달하거나 성능이 정체될 때까지 이 과정을 반복합니다. **객관적 성능 평가를 위한 코헨 카파(Cohen’s Kappa) 지표 활용** * 광고 안전성 검토와 같은 영역은 정답(Ground Truth)이 모호한 경우가 많아 정밀도나 재현율 같은 기존 지표 대신 '코헨 카파' 지표를 사용합니다. * 코헨 카파는 두 명의 평가자가 우연히 일치할 확률을 제외하고 얼마나 일관되게 동의하는지를 측정하며, 0.8 이상은 매우 우수한 수준, 0.4 이상은 수용 가능한 수준으로 간주합니다. * 이 지표는 데이터셋의 품질을 모니터링하는 지표인 동시에, 모델이 전문가의 판단 기준에 얼마나 근접했는지를 나타내는 핵심 성능 지표로 활용됩니다. **Gemini Nano 모델을 통한 실험 및 성능 검증** * 연구팀은 1.8B 파라미터의 Gemini Nano-1과 3.25B의 Nano-2 모델을 대상으로 복잡도가 다른 두 가지 과제에 대해 성능을 테스트했습니다. * **데이터 효율성**: 기존에 크라우드소싱을 통해 수집한 10만 개의 데이터를 학습시킨 모델보다, 단 250~400개의 전문가 큐레이션 데이터를 학습시킨 모델이 훨씬 뛰어난 성능을 보였습니다. * **성능 향상**: 복잡도가 높은 과제에서 크라우드소싱 데이터 기반 모델의 카파 지수는 0.41에 불과했으나, 큐레이션 프로세스를 거친 모델은 전문가 합의 수준인 0.78에 근접하는 성과를 거두었습니다. * 결과적으로 대규모 모델을 사용하는 실제 프로덕션 시스템에서는 데이터 규모를 최대 10,000배까지 줄이면서도 품질을 유지하거나 개선할 수 있음을 입증했습니다. 이 연구는 데이터의 '양'보다 '질'과 '선택 방식'이 LLM 성능 향상에 더 결정적임을 보여줍니다. 특히 전문가의 개입이 필요한 모호한 분류 작업에서 비용 효율적으로 고성능 모델을 구축하고자 하는 조직에게 이 능동 학습 기반 큐레이션은 매우 실용적인 가이드라인이 될 것입니다.

google

Insulin resistance prediction from wearables and routine blood biomarkers (새 탭에서 열림)

구글 리서치(Google Research)는 웨어러블 기기 데이터와 일반적인 혈액 검사 지표를 결합해 제2형 당뇨병의 전조 증상인 인슐린 저항성(IR)을 높은 정확도로 예측하는 머신러닝 모델을 개발했습니다. 이 연구는 침습적이고 비용이 많이 드는 기존 검사 방식을 대체할 수 있는 확장 가능한 조기 선별 도구를 제시하며, 고위험군을 대상으로 한 예방적 치료의 가능성을 열었습니다. 특히 Gemini 모델 기반의 AI 에이전트를 도입하여 사용자가 자신의 상태를 쉽게 이해하고 맞춤형 건강 관리를 실천할 수 있도록 지원하는 통합적인 접근 방식을 제안합니다. **디지털 바이오마커와 혈액 지표의 결합 (WEAR-ME 연구)** * 미국 전역의 1,165명의 참가자를 대상으로 웨어러블 기기(Fitbit, Google Pixel Watch)와 퀘스트 다이아노스틱스(Quest Diagnostics)의 혈액 검사 데이터를 수집하는 WEAR-ME 연구를 진행했습니다. * 데이터는 안정 시 심박수, 걸음 수, 수면 패턴과 같은 웨어러블 지표와 공복 혈당, 지질 패널(Lipid panel) 등 루틴한 혈액 검사 결과, 인구통계학적 정보를 포함합니다. * 심층 신경망(Deep Neural Network)을 활용해 인슐린 저항성의 표준 지표인 HOMA-IR 점수를 예측하도록 모델을 학습시켰습니다. **모델 성능 및 데이터 소스별 기여도** * 단일 데이터 소스보다 여러 스트림을 결합했을 때 예측 정확도(auROC)가 유의미하게 향상되는 결과를 보였습니다. * 웨어러블 데이터와 인구통계 정보만 사용했을 때 0.70이었던 auROC는 공복 혈당 데이터를 추가하자 0.78로 상승했습니다. * 웨어러블, 인구통계, 공복 혈당에 지질 패널을 포함한 전체 혈액 검사 데이터를 모두 결합했을 때 가장 높은 성능인 0.82(독립 검증 코호트에서 0.81)를 달성했습니다. **고위험군 대상의 효용성 및 검증** * 이 모델은 특히 비만이거나 신체 활동량이 적은 정적인 생활 방식을 가진 고위험군에서 강력한 예측 성능을 보였습니다. * 72명의 독립적인 검증 코호트에서도 일관되게 높은 성능을 유지함으로써 모델의 일반화 가능성을 입증했습니다. * 이는 고비용의 특수 인슐린 검사 없이도 일상적인 데이터와 정기 검진 결과만으로 당뇨 위험을 조기에 포착할 수 있음을 의미합니다. **Gemini 기반 인슐린 저항성 교육 에이전트** * 단순한 수치 예측을 넘어, 최신 거대언어모델(LLM)인 Gemini를 활용한 '인슐린 저항성 이해 및 교육 에이전트(IR Agent)' 프로토타입을 구축했습니다. * 이 에이전트는 사용자가 모델의 예측 결과를 쉽게 해석할 수 있도록 돕고, 인슐린 저항성에 대한 문해력을 높여줍니다. * 분석된 데이터를 바탕으로 안전하고 개인화된 건강 관리 권장 사항을 제공하여 실질적인 생활 습관 개선을 유도합니다. 이 기술은 증상이 나타나기 전 단계에서 인슐린 저항성을 발견함으로써 제2형 당뇨병으로의 진행을 늦추거나 예방할 수 있는 강력한 도구가 될 수 있습니다. 현재는 연구 및 정보 제공 목적으로 개발되었으나, 향후 의료 현장에서 데이터 기반의 정밀한 조기 진단 보조 도구로 활용될 것으로 기대됩니다.

google

REGEN: Empowering personalized recommendations with natural language (새 탭에서 열림)

Google Research는 추천 시스템이 단순히 다음 아이템을 예측하는 것을 넘어, 자연어로 사용자와 상호작용하고 추천 이유를 설명할 수 있도록 돕는 새로운 벤치마크 데이터셋 'REGEN(Reviews Enhanced with GEnerative Narratives)'을 공개했습니다. 이 데이터셋은 아마존 상품 리뷰 데이터를 기반으로 Gemini 1.5 Flash를 활용해 합성된 사용자 비평과 개인화된 내러티브를 추가하여 구축되었습니다. 연구 결과, LLM 기반의 모델은 자연어 피드백을 통해 추천의 정확도를 높이는 동시에 사용자 맞춤형 설명을 효과적으로 생성할 수 있음을 입증했습니다. ## REGEN 데이터셋의 구성과 특징 * **기존 데이터의 확장:** 널리 사용되는 아마존 상품 리뷰 데이터셋을 기반으로 하되, 대화형 추천 시스템에 필요한 요소들을 Gemini 1.5 Flash로 합성하여 보완했습니다. * **사용자 비평(Critiques):** "더 많은 저장 용량이 필요해"와 같이 사용자가 현재 추천된 아이템을 수정하거나 선호도를 구체화하는 자연어 피드백 데이터를 포함합니다. * **맥락적 내러티브(Narratives):** 단순한 아이템 노출이 아니라, 구매 이유(Purchase reasons), 제품 홍보(Product endorsements), 사용자 선호도 요약 등을 포함하여 추천의 근거를 풍부하게 제공합니다. ## 추천과 생성을 위한 모델 아키텍처 * **하이브리드 방식 (FLARE + Gemma):** 협업 필터링 기반의 순차적 추천 모델인 FLARE가 아이템을 예측하면, 경량 LLM인 Gemma 2B가 해당 아이템에 대한 설명을 생성하는 이원화된 구조를 테스트했습니다. * **통합 모델 (LUMEN):** 단일 LLM이 비평 이해, 아이템 추천, 내러티브 생성을 모두 수행하는 모델입니다. 어휘집과 임베딩 레이어를 수정하여 아이템 ID와 텍스트 토큰을 하나의 생성 과정에서 처리하도록 설계되었습니다. * **공동 작업 수행:** 모델은 사용자의 과거 이력과 자연어 비평을 동시에 입력받아 적절한 아이템을 추천함과 동시에 그에 걸맞은 자연어 설명을 출력하는 엔드 투 엔드(End-to-End) 학습을 진행합니다. ## 실험 결과 및 성능 향상 * **비평의 효과:** 입력 데이터에 사용자의 자연어 비평을 포함했을 때 추천 성능이 일관되게 향상되었습니다. Office 도메인 데이터 기준, 상위 10개 추천 결과 내에 정답이 포함될 확률(Recall@10)이 0.124에서 0.1402로 크게 개선되었습니다. * **LLM의 다재다능함:** REGEN으로 학습된 모델들은 기존의 전문화된 추천 알고리즘에 필적하는 성능을 보이면서도, 사용자의 요구사항을 반영한 고품질의 개인화된 설명을 생성할 수 있었습니다. 추천 시스템의 미래는 단순히 상품을 나열하는 것이 아니라 사용자와 소통하며 맥락을 이해하는 방향으로 나아가고 있습니다. REGEN 데이터셋은 LLM이 추천 엔진의 핵심 역할을 수행할 수 있음을 보여주며, 개발자들은 이를 활용해 더 설명 가능하고(explainable) 대화에 능숙한 차세대 커머스 AI를 구축할 수 있을 것입니다.