gemini - Google Research

google 2026년 4월 9일

ConvApparel: Measuring and bridging the realism gap in user simulators (새 탭에서 열림)

ConvApparel은 LLM 기반 사용자 시뮬레이터와 실제 인간 사이의 '리얼리즘 격차(Realism Gap)'를 정량화하고 이를 좁히기 위해 설계된 새로운 데이터셋이자 평가 프레임워크입니다. 이 연구는 시뮬레이터가 단순히 인간의 말투를 흉내 내는 것을 넘어, 시스템의 오류나 불친절한 응답에 대해 인간처럼 좌절하거나 반응하는지 검증하는 데 중점을 둡니다. 이를 통해 실제 환경에서도 견고하게 작동하는 대화형 AI 에이전트를 학습시키고 테스트할 수 있는 신뢰할 수 있는 기반을 제공합니다. ### 리얼리즘 격차와 시뮬레이터의 한계 현재 대화형 AI 학습에 사용되는 LLM 기반 시뮬레이터는 실제 사용자 행동과 시스템적으로 괴리된 모습을 보입니다. * **비현실적인 특성:** 시뮬레이터는 과도하게 장황하거나, 일관된 페르소나가 부족하며, 실제 인간이라면 느낄 법한 좌절감을 표현하지 못하고 비정상적인 인내심을 보이는 경향이 있습니다. * **과적합의 위험:** 특정 데이터로만 학습된 시뮬레이터는 훈련 시 보지 못했던 새로운 에이전트 정책을 만났을 때 적절히 반응하지 못하고 훈련 패턴만 맹목적으로 반복하는 한계가 있습니다. * **훈련 결과의 불일치:** 현실성 없는 시뮬레이터로 학습된 에이전트는 실제 사용자에게 배포되었을 때 예상치 못한 상황에서 실패할 가능성이 높습니다. ### ConvApparel 데이터셋과 이중 에이전트 프로토콜 의류 쇼핑 도메인(CRS)을 배경으로 구축된 ConvApparel은 인간의 다양한 감정 스펙트럼을 포착하기 위해 독특한 실험 설계를 채택했습니다. * **이중 에이전트 구조:** 사용자를 무작위로 '좋은(Good) 에이전트'와 의도적으로 불친절하고 혼란을 주는 '나쁜(Bad) 에이전트'에 배정하여 만족부터 분노까지의 폭넓은 반응을 수집했습니다. * **대규모 데이터:** 총 4,000건 이상의 인간-AI 대화와 약 15,000회의 턴(turn)으로 구성되어 통계적 유의성을 확보했습니다. * **세밀한 주석(Annotation):** 각 대화의 턴마다 사용자가 느낀 만족도, 좌절감, 구매 가능성 등 주관적인 내부 상태를 직접 보고하게 하여 시뮬레이터 검증을 위한 지표(Ground Truth)로 활용했습니다. ### 시뮬레이터 신뢰도 측정을 위한 3대 지표 연구팀은 시뮬레이터가 실제 인간과 얼마나 유사한지 다각도로 평가하기 위해 세 가지 핵심 지표를 제안합니다. * **인구 통계적 통계 정렬(Population-level Alignment):** 대화의 길이, 턴당 단어 수, 거절이나 수락과 같은 대화 행위(Dialog Acts)의 분포가 실제 인간 군집의 통계와 일치하는지 확인합니다. * **인간 유사성 점수(Human-likeness Score):** 실제 대화와 합성 대화를 구분하도록 학습된 판별기(Discriminator)를 통해 시뮬레이션된 대화가 얼마나 인간적인 스타일을 갖췄는지 정량화합니다. * **인과적/반사실적 검증(Counterfactual Validation):** '좋은' 에이전트와의 대화만 학습한 시뮬레이터가 생소하고 불친절한 '나쁜' 에이전트를 만났을 때, 실제 인간처럼 만족도가 급감하고 좌절감이 상승하는지 테스트하여 적응력을 평가합니다. ### 결론 및 제언 성공적인 대화형 AI 개발을 위해서는 시뮬레이터가 단순히 친절한 조수 역할에 머물러서는 안 되며, 불완전하고 때로는 쉽게 짜증을 내는 인간의 본성을 정확히 반영해야 합니다. ConvApparel 프레임워크는 프롬프트 기반, 인메모리 학습(ICL), 지도 미세 조정(SFT) 등 다양한 방식으로 구축된 시뮬레이터의 성능을 엄격하게 평가할 수 있는 도구를 제공합니다. 향후 대화형 시스템 개발자들은 이러한 다각적 검증 지표를 활용함으로써, 실험실 환경을 넘어 실제 복잡한 사용자 환경에서도 안정적으로 작동하는 에이전트를 구축할 수 있을 것입니다.

gemini database-design llm conversational-ai+4

google 2026년 3월 25일

Vibe Coding XR: Accelerating AI + XR prototyping with XR Blocks and Gemini (새 탭에서 열림)

Google XR 팀에서 발표한 **Vibe Coding XR**은 제미나이(Gemini)와 오픈 소스 프레임워크인 'XR Blocks'를 결합하여 자연어 프롬프트만으로 상호작용 가능한 XR(확장 현실) 애플리케이션을 생성하는 혁신적인 워크플로우입니다. 이 시스템은 복잡한 게임 엔진이나 센서 통합 과정 없이도 물리 법칙이 적용된 WebXR 앱을 60초 이내에 구축함으로써, 개발자가 아이디어를 Android XR 헤드셋에서 즉각적으로 검증할 수 있게 합니다. 결과적으로 공간 컴퓨팅의 진입 장벽을 낮추고 프로토타이핑 속도를 획기적으로 가속화하는 것이 이 기술의 핵심입니다. ### XR 프로토타이핑의 변화와 Vibe Coding * **전통적 방식의 한계:** 기존 XR 개발은 파편화된 인식 파이프라인, 복잡한 게임 엔진, 저수준 센서 통합 등으로 인해 숙련된 개발자에게도 진입 장벽이 높았습니다. * **Vibe Coding의 도입:** LLM이 인간의 의도를 직접 실행 가능한 코드로 변환하는 'Vibe Coding' 개념을 도입하여, 복잡한 코딩 과정 없이 의도(vibe)만으로 결과물을 만들어냅니다. * **효율성 극대화:** 며칠이 소요되던 공간 시각화 및 상호작용 테스트를 단 몇 분 만에 완료할 수 있어 아이디어의 신속한 검증과 폐기가 가능해집니다. ### Vibe Coding XR 워크플로우 * **자연어 묘사:** 사용자는 Android XR 헤드셋이나 데스크톱의 크롬 브라우저에서 "민들레를 만들어줘"와 같은 단순한 명령어를 입력합니다. * **AI 설계 및 구현:** 제미나이가 XR Blocks의 구조와 샘플을 학습하여 장면 구성, 인식 로직, 상호작용 방식을 설계하고 코드를 작성합니다. * **즉각적인 배포 및 테스트:** 생성된 앱은 'Enter XR' 버튼 클릭 한 번으로 실행되며, 핀치(Pinch) 제스처 등 손동작 인터랙션을 즉시 테스트할 수 있습니다. * **시뮬레이션 환경 제공:** 데스크톱 환경에서도 가상현실 시뮬레이터를 통해 실제 헤드셋 없이도 물리 기반 상호작용을 미리 확인하고 수정할 수 있습니다. ### 기술적 구성 요소 및 메커니즘 * **XR Blocks 프레임워크:** WebXR, three.js, LiteRT.js 등 접근성 높은 웹 기술을 기반으로 구축되어 환경 인식, AI 통합, 공간 상호작용을 관리합니다. * **전문화된 시스템 프롬프트:** 제미나이에게 공간 레이아웃, 스케일, 상호작용 거리 등 XR 환경의 모범 사례와 디자인 패턴을 가르치는 정교한 지침이 포함되어 있습니다. * **소스 코드 템플릿:** 엄선된 XR Blocks 템플릿과 소스 코드를 프롬프트 컨텍스트에 포함하여 AI의 환각(Hallucination) 현상을 방지하고 유효한 API 호출을 보장합니다. ### 실제 적용 사례 * **수학 및 과학 교육:** 오일러의 정리 시각화, 지레의 원리를 이용한 물리 실험실, 분자 연소 반응을 관찰하는 화학 실험 등 교육용 콘텐츠를 즉석에서 생성합니다. * **양자 역학 시뮬레이션:** '슈뢰딩거의 고양이' 개념을 XR로 구현하여, 상자를 열기 전까지 생사 상태가 공존하는 퀀텀 상태를 직접 체험할 수 있게 합니다. * **스포츠 프로토타이핑:** 손으로 공을 치고 주변 환경과 충돌하는 배구 게임과 같은 물리 기반 스포츠 경험을 빠르게 구축합니다. Vibe Coding XR은 복잡한 도구 학습에 시간을 쓰는 대신 아이디어의 본질에 집중할 수 있게 해줍니다. XR 개발 경험이 적은 교육자나 기획자라면 이 워크플로우를 활용해 추상적인 개념을 3차원 공간에서 시각화하는 용도로 활용해 보길 권장하며, 숙련된 개발자는 복잡한 기능을 구현하기 전 인터랙션의 "감(vibe)"을 잡는 초기 프로토타이핑 도구로 강력히 추천합니다.

gemini vibe-coding webxr android-xr+4

google 2026년 3월 16일

Testing LLMs on superconductivity research questions (새 탭에서 열림)

현대 물리학의 난제인 고온 초전도체 연구에서 대규모 언어 모델(LLM)이 전문가 수준의 파트너가 될 수 있는지를 검증한 결과, 선별된 고품질 자료를 기반으로 한 모델이 일반 범용 모델보다 압도적으로 우수한 성능을 보였습니다. 구글 리서치와 코넬 대학교 연구팀은 6개의 LLM을 대상으로 전문 지식을 묻는 67개의 질문을 던져 답변의 정확성과 신뢰성을 평가했으며, 이를 통해 특정 학문 분야에 특화된 데이터 큐레이션의 중요성을 입증했습니다. 결과적으로 NotebookLM과 맞춤형 RAG 시스템이 증거 제시와 균형 잡힌 시각 측면에서 가장 높은 점수를 받으며 전문 과학 연구를 돕는 도구로서의 가능성을 보여주었습니다. **연구 배경 및 고온 초전도체 사례 선정** * 고온 초전도체(구프레이트 화합물)는 영하 140도 이상의 온도에서 전기 저항이 0이 되는 현상으로, 1987년 노벨상 수상 이후에도 여전히 메커니즘 규명이 진행 중인 복잡한 분야입니다. * 수십 년간 축적된 방대한 논문과 서로 대립하는 다양한 이론들로 인해, 신규 연구자가 지식의 전체상을 파악하고 중립적인 관점을 유지하기가 매우 어렵습니다. * 이번 연구는 LLM이 이러한 전문 분야에서 편향되지 않은 지식을 제공하고, 가설 설정을 돕는 '연구 파트너'로서 기능할 수 있는지 확인하기 위해 설계되었습니다. **평가 설계 및 실험 방법론** * 평가 대상은 웹 접근이 가능한 범용 모델 4종(GPT-4o, Perplexity, Claude 3.5, Gemini Advanced Pro 1.5)과 엄선된 자료만 사용하는 폐쇄형 시스템 2종(NotebookLM, 맞춤형 RAG)으로 구성되었습니다. * 폐쇄형 시스템 구축을 위해 초전도체 전문가 12명이 선정한 15개의 핵심 리뷰 논문과 이들이 인용한 약 1,726개의 실험 및 이론 논문을 데이터 소스로 활용했습니다. * 전문가 패널은 "LSCO의 어느 도핑 수준에서 립시츠 전이가 발생하는가?"와 같이 고도의 전문성을 요구하는 67개의 질문을 작성하여 각 모델의 답변을 블라인드 테스트로 평가했습니다. **주요 결과 및 모델별 성능 평가** * 6가지 평가지표(균형 잡힌 시각, 포괄성, 간결성, 증거 토대, 시각적 관련성, 정성적 피드백)에서 구글의 NotebookLM이 가장 뛰어난 성과를 거두었으며, 맞춤형 RAG 시스템이 그 뒤를 이었습니다. * 특히 NotebookLM은 문헌 근거를 제시하는 '증거 토대' 항목에서 가장 높은 점수를 받았으며, 이는 전문가가 검증한 신뢰할 수 있는 소스 내부에서 답을 찾도록 제한한 것이 주효했음을 보여줍니다. * Gemini Advanced Pro 1.5와 NotebookLM은 여러 대립하는 이론적 관점을 골고루 다루는 '균형 잡힌 시각' 항목에서 우수한 점수를 기록하여 과학적 중립성을 잘 유지했습니다. 이번 사례 연구는 범용적인 웹 검색 기반 AI보다 신뢰할 수 있는 학술 출처를 사전에 큐레이션한 '폐쇄형 데이터 시스템'이 전문 과학 연구에서 훨씬 유용하다는 사실을 시사합니다. 향후 과학적 발견을 가속화하기 위해서는 모델 자체의 성능 개선뿐만 아니라, 검증된 데이터셋을 효과적으로 활용하는 검색 증강 생성(RAG) 기술의 고도화가 필수적입니다. 연구자들은 AI를 단순한 정보 검색 도구를 넘어, 복잡한 이론적 쟁점을 정리하고 논리적 허점을 찾아주는 비판적 사고의 동료로 활용할 수 있을 것입니다.

gemini database-design llm notebooklm+2

google 2026년 3월 12일

Introducing Groundsource: Turning news reports into data with Gemini (새 탭에서 열림)

Google Research가 공개한 'Groundsource'는 비정형 뉴스 데이터를 고품질의 정형 데이터로 변환하는 AI 기반 프레임워크입니다. 이 기술은 Gemini를 활용해 전 세계 150개국 이상의 뉴스에서 260만 건의 돌발 홍수 기록을 추출했으며, 이를 통해 데이터가 부족했던 기후 과학 분야에 전례 없는 규모의 역사적 베이스라인을 제공합니다. 결과적으로 이 시스템은 돌발 홍수 예보의 정확도를 높여 인명 구조와 도시 계획 등에 실질적인 도움을 줄 수 있는 데이터 생태계를 구축했습니다. **글로벌 재난 데이터의 부족 문제** * 홍수와 같은 수문 기상학적 재난은 지진과 달리 표준화된 관측 인프라가 부족하여 모델 학습을 위한 데이터가 매우 희귀한 '데이터 사막' 현상을 겪고 있습니다. * 기존의 위성 기반 데이터베이스는 구름의 간섭, 위성 재방문 주기 등으로 인해 규모가 크고 오래 지속되는 홍수 위주로만 기록되는 한계가 있었습니다. * UN과 유럽 위원회 등이 운영하는 GDACS 시스템은 약 1만 건의 기록을 보유하고 있으나, 이는 전 지구적 규모의 AI 모델을 훈련하기에는 턱없이 부족한 양입니다. **Gemini를 활용한 Groundsource 파이프라인** * **텍스트 추출 및 표준화:** 80개 언어로 작성된 뉴스 기사와 정부 보고서에서 텍스트를 추출한 뒤, Cloud Translation API를 통해 영어로 표준화합니다. * **Gemini 기반 정밀 분석:** 고도화된 프롬프트 엔지니어링을 통해 Gemini가 세 가지 핵심 분석 작업을 수행합니다. * **분류:** 단순한 홍수 주의보나 정책 기사가 아닌, 실제 발생 중이거나 발생했던 홍수 사건만을 정확히 구별합니다. * **시간 추론:** 기사 발행일을 기준으로 '지난 화요일'과 같은 상대적 시점 표기를 구체적인 날짜와 시간으로 변환합니다. * **공간 정밀도:** 기사 속의 동네나 거리 이름을 식별하고, Google Maps Platform을 사용해 이를 표준화된 공간 폴리곤(Polygon) 데이터로 매핑합니다. **데이터의 신뢰도와 확장성 검증** * 수동 검토 결과, 추출된 이벤트의 60%가 위치와 시간 측면에서 완벽하게 정확했으며, 82%는 실무 분석에 유효한 수준(특정 행정 구역 및 발생 당일 일치)의 정확도를 보였습니다. * Groundsource는 기존 GDACS에 기록된 주요 홍수 사건의 85~100%를 포착하는 동시에, 기존 시스템이 놓쳤던 국지적이고 소규모인 홍수 사건까지 방대하게 수집했습니다. * 전 세계 260만 건의 홍수 데이터는 기존 감시 시스템 대비 데이터 밀도를 수백 배 이상 높인 성과입니다. **미래 예측 기술로의 응용** * 구축된 구조화 데이터를 통해 이제 도시 돌발 홍수를 발생 최대 24시간 전에 예보할 수 있게 되었으며, 이는 현재 Google의 'Flood Hub' 서비스에 통합되어 제공되고 있습니다. * 이 프레임워크는 뉴스라는 '비정형 기억'을 체계적인 과학적 베이스라인으로 변환할 수 있음을 증명했으며, 향후 가뭄, 산사태, 산사태 등 데이터가 부족한 다른 자연재해 분야로도 확장될 예정입니다. 이처럼 LLM을 활용해 흩어진 뉴스 정보를 정교한 데이터셋으로 구축하는 방식은 데이터 부족 문제를 겪는 기후 및 환경 연구자들에게 매우 강력한 도구가 될 수 있습니다. 단순한 기록 보관을 넘어 실시간 예보 시스템과 연동할 때 기술의 사회적 가치가 극대화될 것입니다.

gemini gen-ai groundsource flood-forecasting+4

google 2026년 2월 16일

Teaching AI to read a map (새 탭에서 열림)

구글 연구진은 멀티모달 거대언어모델(MLLM)이 지도의 기하학적 구조를 이해하고 경로를 추적할 수 있도록 돕는 합성 데이터 생성 파이프라인인 'MapTrace'를 제안했습니다. 기존 모델들이 이미지 내 객체 인식에는 능숙하지만 벽과 길을 구분하는 정밀한 공간 추론에는 한계를 보인다는 점에 착안하여, 200만 개의 데이터 쌍을 자동으로 생성해 학습시키는 방법론을 정립했습니다. 연구 결과, 이러한 합성 데이터를 통한 미세 조정(Fine-tuning)만으로도 모델의 공간 추론 능력을 비약적으로 향상시킬 수 있음이 증명되었습니다. **공간 추론 능력 결여와 데이터 확보의 어려움** * 기존 MLLM은 물리적 세계에 대한 '접지(Grounding)'가 부족하여 지도의 선을 벽으로 인식하지 못하고 통과하는 등 물리적 제약을 무시하는 경향이 있습니다. * 이를 해결하기 위한 정밀한 경로 데이터는 수동으로 구축하기에 비용이 지나치게 비싸고, 쇼핑몰이나 테마파크 같은 복잡한 지도는 대개 저작권 문제로 수집이 어렵습니다. * 결과적으로 모델은 지도를 구조화된 공간이 아닌 단순한 픽셀의 집합으로만 인식하게 되는 '데이터 병목 현상'을 겪게 됩니다. **MapTrace: 4단계 합성 데이터 생성 파이프라인** * **다양한 지도 생성:** LLM이 동물원, 쇼핑몰 등 다양한 장소에 대한 묘사를 생성하면, 이를 이미지 생성 모델(Imagen-4 등)에 입력하여 복잡한 지도 이미지를 얻습니다. * **이동 가능 영역 식별(Mask Critic):** 색상 기반 클러스터링으로 통행 가능한 경로 마스크를 추출한 뒤, MLLM '마스크 비평가'가 실제 사람이 다닐 수 있는 길인지 품질을 검증합니다. * **내비게이션 그래프 구축:** 검증된 2D 마스크를 노드(교차로)와 엣지(길)로 구성된 디지털 그래프 형태로 변환하여 계산 가능한 네트워크를 만듭니다. * **최적 경로 생성 및 검증(Path Critic):** 다익스트라(Dijkstra) 알고리즘으로 최단 경로를 계산한 후, 최종적으로 '경로 비평가' MLLM이 해당 경로가 논리적이고 인간의 이동 양식에 부합하는지 최종 승인합니다. **성능 검증 및 기술적 성과** * 연구진은 생성된 200만 개의 Q&A 쌍 중 일부(23,000개)만으로 Gemma 3 27B 및 Gemini 2.5 Flash 모델을 학습시켰으며, 실제 지도 데이터셋인 MapBench에서 성능 향상을 확인했습니다. * 성능 측정에는 두 좌표 시퀀스 사이의 거리를 비교하는 NDTW(Normalized Dynamic Time Warping) 지표를 활용하여 경로의 정확도를 정밀하게 평가했습니다. * 이미지 생성 과정에서 텍스트 렌더링 오류가 간혹 발생하지만, 경로 추적의 정확성 측면에서는 합성 데이터만으로도 충분한 학습 효과를 거둘 수 있음을 시사합니다. **실용적 제언** AI 모델에 물리적 공간에 대한 상식을 부여하고 싶다면 대규모 수동 레이블링 대신 '비평가(Critic)' 모델이 포함된 자동화된 합성 데이터 파이프라인을 구축하는 것이 비용 효율적입니다. 특히 복잡한 제약 조건이 있는 도메인일수록 모델의 크기를 키우는 것보다 특정 태스크에 맞춤화된 '공간 문법'을 데이터로 가르치는 것이 더 효과적입니다.

gemini synthetic-data-generation mllm spatial-reasoning+3

google 2026년 2월 5일

How AI tools can redefine universal design to increase accessibility (새 탭에서 열림)

구글 리서치는 장애인 커뮤니티와의 긴밀한 협력을 통해 사용자의 고유한 요구에 실시간으로 적응하는 '기본 적응형 인터페이스(Natively Adaptive Interfaces, NAI)' 프레임워크를 공개했습니다. NAI는 정적인 디자인에서 벗어나 멀티모달 AI 에이전트를 활용함으로써, 디지털 환경을 단순한 도구가 아닌 사용자의 맥락을 이해하는 능동적인 협업자로 변모시키는 것을 핵심으로 합니다. 이를 통해 기술이 사용자의 특성에 맞춰 스스로 형태를 바꾸는 진정한 의미의 유니버설 디자인을 구현하고, 기능 출시와 보조 기술 지원 사이의 시차인 '접근성 격차'를 해소하고자 합니다. **공동 설계: "우리 없이 우리에 대해 논하지 말라"** * 장애인 커뮤니티의 오랜 원칙인 "Nothing About Us Without Us"를 개발 생애 주기 전반에 도입하여 실질적인 생활 경험을 기술의 중심에 두었습니다. * RIT/NTID, The Arc, RNID, Team Gleason과 같은 전문 단체들과 협력하여 다양한 의사소통 방식을 이해하는 AI 도구를 공동 개발하고 있습니다. * 이러한 협력 모델은 단순히 도구를 만드는 것을 넘어, 장애인 커뮤니티 내의 경제적 역량 강화와 고용 기회 창출로 이어지는 선순환 구조를 지향합니다. **에이전트 중심의 다중 시스템 아키텍처** * 복잡한 메뉴를 사용자가 직접 탐색하는 대신, 중앙 관리자인 '오케스트레이터(Orchestrator)'가 사용자의 문맥을 파악하고 적절한 하위 에이전트에게 작업을 할당합니다. * **요약 에이전트(Summarization Agent):** 방대한 정보를 분석하여 사용자가 이해하기 쉬운 핵심 통찰로 변환합니다. * **설정 에이전트(Settings Agent):** 텍스트 크기 조절 등 UI 요소를 실시간으로 동적 변경하여 최적의 가독성을 제공합니다. * 이를 통해 사용자는 특정 기능을 찾기 위해 버튼을 헤맬 필요 없이, 시스템과 직관적으로 상호작용하며 문제를 해결할 수 있습니다. **멀티모달 유창성을 활용한 주요 프로토타입** * 제미나이(Gemini) 모델의 시각, 음성, 텍스트 동시 처리 능력을 활용하여 주변 환경을 실시간으로 설명하고 질의응답을 주고받는 기능을 구현했습니다. * **StreetReaderAI:** 시각 장애인을 위한 가상 가이드로, 과거 시각 프레임을 기억하여 "방금 지나친 버스 정류장이 어디인가요?"와 같은 질문에 "뒤로 12미터 지점에 있습니다"라고 구체적으로 답변합니다. * **MAVP (Multimodal Agent Video Player):** 정적인 음성 해설을 넘어, 검색 증강 생성(RAG) 기술을 통해 사용자가 영상 속 특정 세부 사항(예: 등장인물의 의상)을 질문하면 실시간으로 응답하는 양방향 비디오 시청 경험을 제공합니다. * **Grammar Laboratory:** 미국 수어(ASL)와 영어를 동시에 지원하는 이중 언어 AI 학습 플랫폼으로, 사용자의 학습 패턴에 맞춘 맞춤형 콘텐츠와 피드백을 제공합니다. **유니버설 디자인의 확장: 커브 컷 효과** * 장애인을 위해 설계된 기능이 결과적으로 모든 사용자의 편의를 증진하는 '커브 컷 효과(Curb-cut effect)'를 강조합니다. * 시각 장애인을 위해 개발된 음성 인터페이스가 멀티태스킹이 필요한 비장애인에게도 유용하게 쓰이듯, NAI 프레임워크는 모든 사용자에게 더 나은 디지털 경험을 제공합니다. * 학습 장애를 지원하기 위한 요약 및 합성 도구는 복잡한 정보를 빠르게 파악해야 하는 모든 현대인에게 보편적인 가치를 제공하게 됩니다. AI 기술은 이제 단순한 접근성 지원 도구를 넘어, 모든 사람의 고유한 개성과 상황에 맞춰 인터페이스가 스스로 진화하는 '개인화된 유니버설 디자인' 시대를 열고 있습니다. 개발자와 디자이너들은 설계 초기 단계부터 장애인 사용자를 파트너로 참여시키고, 멀티모달 AI를 활용해 정적인 UI를 동적인 에이전트 시스템으로 전환함으로써 더욱 포용적인 디지털 세상을 구축할 수 있습니다.

gemini gen-ai ai-agent multimodal-ai+4

google 2026년 1월 22일

Small models, big results: Achieving superior intent extraction through decomposition (새 탭에서 열림)

구글 연구진은 대규모 멀티모달 모델(LLM) 대신 소형 모델을 사용하여 사용자의 UI 상호작용 의도를 효과적으로 추출하는 '분해(Decomposition)' 접근 방식을 제안했습니다. 이 방법은 전체 과정을 각 화면별 요약과 최종 의도 추출이라는 두 단계로 나누어 처리함으로써, 개인정보 보호와 비용 효율성이 중요한 온디바이스(On-device) 환경에서도 대형 모델인 Gemini Pro에 비견되는 높은 성능을 기록했습니다. 결과적으로 복잡한 추론 과정을 세분화하는 것만으로도 소형 모델의 한계를 극복하고 정교한 사용자 의도 파악이 가능함을 증명했습니다. ### 단계별 분해를 통한 의도 추출 워크플로우 * **1단계: 개별 화면 요약:** 사용자의 상호작용이 일어나는 각 화면을 소형 멀티모달 모델이 독립적으로 요약합니다. 이때 현재 화면을 중심으로 이전과 다음 화면을 포함한 3개의 화면(Sliding Window)을 참조합니다. * **요약의 구성 요소:** 모델은 "관련된 화면 컨텍스트는 무엇인가?", "사용자가 방금 수행한 작업은 무엇인가?", "이 상호작용을 통해 사용자가 달성하려는 목적은 무엇인가?(추측)"라는 세 가지 핵심 질문에 답하며 요약을 생성합니다. * **2단계: 요약본 기반 의도 추출:** 1단계에서 생성된 시계열 요약 데이터들을 입력값으로 하여, 파인튜닝된 소형 모델이 최종적으로 사용자의 전체 의도를 한 문장으로 추출합니다. ### 소형 모델의 성능 극대화 기술 * **레이블 정제(Label Preparation):** 학습 데이터의 의도 문장에 요약본에 없는 세부 정보가 포함되어 있으면 모델이 환각(Hallucination)을 일으킬 수 있습니다. 이를 방지하기 위해 요약본에 포함되지 않은 정보는 학습용 레이블에서 미리 제거하는 과정을 거칩니다. * **추측 데이터의 전략적 제거:** 1단계에서 생성한 '사용자 목적에 대한 추측' 데이터는 1단계 요약의 품질은 높여주지만, 2단계 의도 추출 시에는 오히려 혼란을 줄 수 있습니다. 따라서 최종 의도 추출 단계에서는 이 추측 부분만 제외하고 실제 행동 요약만 활용하는 것이 성능 향상에 도움이 됨을 확인했습니다. * **자동화 데이터셋 활용:** 고품질의 의도 문장 예시를 학습시키기 위해, 의도와 행동 시퀀스가 잘 매칭된 공개 자동화 데이터셋을 활용하여 모델을 파인튜닝했습니다. ### Bi-Fact 기반의 정밀한 성능 평가 * **원자적 사실(Atomic Facts) 분해:** 모델이 예측한 의도와 실제 정답(Reference) 의도를 더 이상 쪼갤 수 없는 최소 단위인 '원자적 사실'들로 분해합니다. (예: "런던행 편도 항공권" -> "런던행 항공권", "편도 여정"으로 분해) * **정밀도와 재현율 측정:** 분해된 사실들을 바탕으로 모델이 예측한 사실 중 정답이 얼마나 있는지(Precision), 그리고 정답 중 모델이 얼마나 맞췄는지(Recall)를 계산하여 F1 점수를 산출합니다. * **단계별 오류 추적:** 이 평가 방식을 통해 요약 단계에서 정보가 누락되었는지, 아니면 추출 단계에서 환각이 발생했는지를 정교하게 추적하여 시스템을 개선했습니다. ### 실험 결과 및 성과 * **대형 모델 수준의 성능:** 분해 전략을 적용한 Gemini 1.5 Flash 8B 모델은 훨씬 거대한 모델인 Gemini 1.5 Pro와 대등한 수준의 F1 점수를 기록했습니다. * **기존 기법 대비 우위:** 단순한 Chain-of-Thought(CoT) 프롬프팅이나 엔드투엔드(E2E) 파인튜닝 방식보다 모바일 및 웹 환경 모두에서 일관되게 뛰어난 성능을 보였습니다. * **실용적 가치:** 저비용·고속 처리가 가능한 소형 모델로도 복잡한 UI 궤적을 이해할 수 있게 됨에 따라, 향후 모바일 기기 내에서 개인정보 노출 없이 실시간으로 사용자를 돕는 지능형 비서 기능의 핵심 기술로 활용될 전망입니다.

gemini nlp multimodal-ai fine-tuning+4

google 2025년 12월 14일

Gemini provides automated feedback for theoretical computer scientists at STOC 2026 (새 탭에서 열림)

Google Research는 이론 컴퓨터 과학 분야의 최고 권위 학회인 STOC 2026 제출 논문을 대상으로, Gemini를 활용한 자동 피드백 도구를 실험적으로 도입했습니다. 이 도구는 복잡한 논리 구조와 수식을 검증하여 인간 연구자가 수개월 동안 발견하지 못한 치명적인 오류를 24시간 이내에 찾아내는 성과를 거두었습니다. 결과적으로 참여 저자의 97%가 피드백이 유용했다고 답하며, AI가 전문적인 연구 워크플로우를 보조하는 강력한 협업 도구가 될 수 있음을 증명했습니다. **추론 확장 기술을 통한 수학적 엄밀성 확보** * Gemini 2.5 Deep Think의 고급 버전에 적용된 '추론 확장(Inference Scaling)' 메서드를 활용하여 단순한 선형적 사고를 넘어 여러 해결 경로를 동시에 탐색합니다. * 다양한 추론 및 평가 흔적(traces)을 결합함으로써 LLM 특유의 환각 현상을 줄이고, 논문의 가장 핵심적인 논리적 결함에 집중할 수 있도록 최적화되었습니다. **구조화된 피드백 제공 방식** * 저자들에게는 논문의 기여도 요약, 주요 정리(Theorem) 및 보조 정리(Lemma)에 대한 구체적인 오류 지적 및 개선 제안, 오타 및 단순 교정 사항이 포함된 체계적인 리포트가 제공됩니다. * 단순한 문구 수정을 넘어 변수 이름의 불일치, 부등식의 잘못된 적용, 증명 과정에서의 논리적 공백 등 기술적인 디테일을 심층 분석합니다. **실제 연구 현장에서의 성과와 사용자 반응** * 실험에 참여한 논문의 80% 이상이 AI 리뷰를 선택했으며, 저자들은 수개월간 발견하지 못했던 '논문 전체를 부정하게 만드는 치명적인 버그'를 AI가 찾아냈다는 점에 주목했습니다. * 설문 결과 참여자의 97%가 재사용 의사를 밝혔으며, 81%는 논문의 명확성과 가독성이 크게 향상되었다고 평가했습니다. * 인간 리뷰어와 달리 중립적인 톤으로 신속하게(2일 이내) 피드백을 제공한다는 점이 큰 장점으로 꼽혔습니다. **전문가와 AI의 협업 모델 및 한계점** * 모델이 복잡한 표기법이나 그림을 해석하는 과정에서 간혹 환각을 일으키기도 하지만, 해당 분야의 전문가인 저자들은 AI의 출력물에서 '노이즈'를 걸러내고 유익한 통찰만을 선택적으로 수용하는 능력을 보여주었습니다. * 이는 AI가 인간을 대체하는 것이 아니라, 전문가의 판단을 돕고 검증의 시작점 역할을 수행하는 '보조적 파트너'로서 최적화되어 있음을 시사합니다. **교육적 가치와 미래 전망** * 설문에 응한 연구자의 75%는 이 도구가 학생들에게 수학적 엄밀성과 논문 작성법을 교육하는 데 큰 가치가 있다고 응답했습니다. * 연구 커뮤니티의 88%는 연구 프로세스 전반에 걸쳐 이러한 도구를 지속적으로 사용하기를 희망하고 있으며, Google은 향후 동료 검토(Peer Review) 과정을 대체하는 것이 아닌, 이를 보완하고 강화하는 방향으로 기술을 발전시킬 계획입니다. 연구자들은 이 도구를 단순한 자동 검토기가 아닌, 연구 초기 단계부터 논리의 빈틈을 메워주는 '상시 접속 가능한 동료 연구자'로 활용할 것을 권장합니다. 특히 복잡한 증명이 포함된 논문을 투고하기 전, 예상치 못한 논리적 오류를 사전에 필터링하는 용도로 매우 유용합니다.

gemini ai llm gen-ai+5

google 2025년 11월 17일

Generative UI: A rich, custom, visual interactive user experience for any prompt (새 탭에서 열림)

구글 리서치가 발표한 '제너레이티브 UI(Generative UI)'는 AI 모델이 단순한 텍스트 답변을 넘어 웹페이지, 게임, 도구, 시뮬레이션 등 완전한 사용자 경험(UX)을 실시간으로 생성하는 새로운 기술 패러다임입니다. 이 기술은 사용자의 질문이나 지시사항의 의도를 파악하여 고정된 형식이 아닌, 목적에 최적화된 맞춤형 인터페이스를 즉석에서 설계하고 코딩합니다. 현재 제미나이(Gemini) 앱과 구글 검색의 AI 모드에 통합되어 정적 인터페이스를 동적이고 상호작용 가능한 디지털 환경으로 변모시키고 있습니다. **정적 인터페이스를 넘어서는 새로운 패러다임** * 사용자가 카탈로그에서 기존 앱을 선택하는 대신, AI가 사용자의 니즈에 맞춰 동적으로 인터페이스를 생성하여 제공합니다. * 단일 단어부터 상세한 지침까지 모든 형태의 프롬프트에 대응하며, 단순한 정보 전달을 넘어 학습, 놀이, 탐색이 가능한 상호작용 환경을 구축합니다. * 사용자 평가 결과, 생성 속도를 제외한 품질 측면에서 일반적인 LLM의 텍스트 출력보다 제너레이티브 UI에 대한 선호도가 압도적으로 높게 나타났습니다. **실시간 제품 통합 및 활용 사례** * **제미나이 앱(Dynamic View):** 사용자의 대상층(예: 5세 아이 vs 성인)에 따라 콘텐츠와 기능을 다르게 설계하며, 패션 조언이나 이벤트 계획 등 실질적인 과업 수행을 돕습니다. * **구글 검색(AI Mode):** 제미나이 3의 멀티모달 이해 능력과 에이전트 코딩 역량을 활용하여 복잡한 과학적 시뮬레이션(예: RNA 중합효소 작용 기전) 등을 즉석에서 시각화합니다. * **맞춤형 도구 생성:** 소셜 미디어 포스트 갤러리 제작부터 수학 교육용 게임까지, 프롬프트의 의도에 따라 완전히 고유한 레이아웃과 기능을 갖춘 도구를 생성합니다. **제너레이티브 UI의 기술적 구현 원리** * **제미나이 3 Pro 기반:** 구글의 최신 모델을 핵심 엔진으로 사용하며 세 가지 주요 구성 요소를 추가하여 완성도를 높였습니다. * **도구 액세스(Tool Access):** 서버를 통해 이미지 생성 및 웹 검색 도구에 접근하며, 이를 통해 생성된 결과물을 브라우저에 직접 전송하여 효율성을 극대화합니다. * **정교한 시스템 지침:** 목표 설정, 계획 수립, 기술 사양 및 오류 방지 팁이 포함된 상세한 가이드를 통해 모델이 기능적인 UI를 설계하도록 유도합니다. * **사후 처리(Post-processing):** 모델이 출력한 결과물을 사후 처리 프로세스에 통과시켜 흔히 발생하는 기술적 오류를 수정하고 안정성을 확보합니다. 제너레이티브 UI는 소프트웨어가 사용자의 언어만큼이나 유연하고 적응력 있게 변화하는 미래를 보여줍니다. 구글 검색의 AI 모드나 제미나이 앱의 실험적 기능들을 통해, 정해진 틀에 갇히지 않은 진정한 개인화된 인터페이스를 직접 경험해 보시길 권장합니다.

gemini ai llm multimodal-ai+4

google 2025년 10월 28일

StreetReaderAI: Towards making street view accessible via context-aware multimodal AI (새 탭에서 열림)

StreetReaderAI는 구글 리서치에서 개발한 시각장애인 및 저시력자를 위한 혁신적인 스트리트 뷰 프로토타입으로, 멀티모달 AI인 Gemini를 활용해 시각적 정보를 실시간 음성 정보로 변환합니다. 기존 지도 서비스가 제공하지 못했던 스트리트 뷰 이미지의 맥락과 지리적 특성을 실시간 대화형 인터페이스로 설명함으로써, 시각장애인이 가상 세계를 자유롭게 탐색하고 실제 경로를 미리 파악할 수 있도록 돕는 것이 이 기술의 핵심입니다. **사용자 중심의 직관적 내비게이션** * 키보드 화살표 키나 음성 명령을 사용하여 게임을 하듯 가상 공간 내 시점 전환 및 이동이 가능합니다. * 사용자가 시점을 회전할 때마다 현재 방위(예: "북동쪽을 보고 있습니다")와 정면에 랜드마크나 장소가 있는지를 음성으로 즉각 피드백합니다. * "가상 걸음(Virtual steps)" 기능을 통해 앞뒤로 이동하며 이동 거리와 도로 정보, 주변 상점 및 시설물에 대한 정보를 실시간으로 수신할 수 있습니다. **AI 디스크라이버(AI Describer)를 통한 상황별 맥락 인식** * 단순한 이미지 분석을 넘어 사용자의 위도·경도, 도로 데이터, 현재 시야의 스트리트 뷰 이미지를 결합해 맞춤형 설명을 생성합니다. * 보행 안전과 내비게이션 정보에 집중하는 '기본 모드'와 지역의 역사적·건축적 배경을 상세히 설명하는 '투어 가이드 모드'를 제공합니다. * 사용자가 현재 장면에서 궁금해할 만한 후속 질문(예: "저 건물의 입구는 어디인가요?")을 AI가 스스로 예측하여 제안함으로써 탐색의 효율성을 높였습니다. **AI 채팅과 강력한 세션 메모리 기능** * Gemini Multimodal Live API를 활용하여 사용자와 실시간 대화가 가능하며, 사용자의 질문에 맞춰 시각적 정보를 해석합니다. * 약 100만 토큰 이상의 긴 컨텍스트 윈도우를 활용해 사용자가 세션 동안 탐색한 모든 경로와 이미지를 기억합니다. * 이를 통해 "방금 지나온 버스 정류장에 벤치가 있었니?" 또는 "아까 본 편의점에서 여기까지 얼마나 떨어져 있어?"와 같은 과거의 맥락이 포함된 복합적인 질문에 정확히 답변할 수 있습니다. **사용자 평가 및 실무적 시사점** 11명의 시각장애인을 대상으로 한 연구 결과, 사용자들은 StreetReaderAI를 통해 목적지의 지형지물을 미리 확인하고 보행 경로를 계획하는 데 큰 도움을 얻었습니다. 이 기술은 수조 개의 스트리트 뷰 이미지를 텍스트 기반의 데이터로 변환할 필요 없이, 필요할 때마다 실시간으로 AI가 해석해 준다는 점에서 확장성이 매우 높습니다. 향후 이와 같은 멀티모달 AI 기술이 지도 앱에 통합된다면 시각장애인의 이동권과 정보 접근성을 획기적으로 개선할 수 있을 것입니다.

gemini ai multimodal-ai accessibility+5

google 2025년 10월 22일

Google Earth AI: Unlocking geospatial insights with foundation models and cross-modal reasoning (새 탭에서 열림)

구글 어스 AI(Google Earth AI)는 최신 제미나이(Gemini) 모델 기반의 추론 에이전트와 지리 공간 파운데이션 모델을 결합하여, 지구 규모의 복잡한 문제에 대해 실질적인 통찰을 제공하는 생태계입니다. 이 시스템은 위성 이미지, 인구 통계, 환경 데이터 등 서로 다른 영역의 정보를 통합 분석함으로써 기존 단일 모델로는 해결하기 어려웠던 교차 도메인 추론을 가능하게 합니다. 구글은 이를 통해 원격 탐사 및 인구 역학 분야에서 상태 최첨단(SOTA) 성능을 달성했으며, 구글 어스와 구글 클라우드를 통해 이러한 기능을 개발자와 기업에 확대 제공하고 있습니다. **원격 탐사 파운데이션 모델의 혁신** * 시각-언어 모델(VLM), 개방형 어휘 객체 탐지(Open-vocabulary detection), 적응형 비전 백본의 세 가지 핵심 기능을 통해 위성 이미지 분석 속도와 정확도를 대폭 향상했습니다. * 사용자는 "폭풍 후 침수된 모든 도로 찾기"와 같은 자연어 질의를 통해 고해상도 항공 이미지에서 즉각적이고 정확한 답변을 얻을 수 있습니다. * 텍스트 기반 이미지 검색 작업에서 기존 대비 평균 16% 이상의 성능 향상을 보였으며, 미학습 객체에 대한 제로샷(Zero-shot) 탐지 정확도는 기존 베이스라인 모델보다 2배 이상 높습니다. **인구 역학 및 모빌리티 AI 분석** * 인구 역학 파운데이션(Population Dynamics Foundations) 모델을 통해 사람과 장소 간의 복잡한 상호작용을 이해하고, 시간에 따른 인구 이동 및 활동 변화를 분석합니다. * 전 세계 17개국에 걸친 일관된 임베딩 데이터와 매월 업데이트되는 시계열 정보를 제공하여, 인구 밀도, 수목 피복도, 야간 조명 등 다양한 지표를 정밀하게 예측합니다. * 실제 활용 사례로 옥스퍼드 대학의 연구에 따르면, 브라질의 뎅기열 확산 예측 모델에 이 임베딩을 적용했을 때 12개월 장기 예측 정확도(R²)가 0.456에서 0.656으로 크게 개선되었습니다. **지능형 공간 추론 에이전트의 역할** * 제미나이 모델을 기반으로 하는 공간 추론 에이전트는 복잡하고 추상적인 질문을 단계별 실행 계획으로 분해하는 지능형 오케스트레이터 역할을 수행합니다. * 에이전트는 파운데이션 모델 호출, 방대한 데이터 저장소 쿼리, 지리 공간 분석 도구 활용 등을 직접 실행하며, 각 단계에서 도출된 결과를 종합하여 최종적인 해답을 제시합니다. * 예를 들어 "허리케인 상륙 가능성이 높은 지역과 가장 취약한 공동체는 어디인가?"라는 질문에 대해 이미지, 환경, 인구 데이터를 융합 분석하여 구체적인 대비책을 도출할 수 있습니다. 구글 어스 AI는 기후 변화 대응, 재난 관리, 도시 계획 등 전 지구적 과제를 해결하려는 기업과 연구자들에게 강력한 도구를 제공합니다. 현재 구글은 개발자와 기업 사용자를 대상으로 이 새로운 기능에 대한 접근 권한을 확대하고 있으므로, 고도화된 공간 데이터 분석이 필요한 조직은 구글 클라우드 및 구글 어스 AI 웹사이트를 통해 기술 도입을 검토할 것을 권장합니다.

gemini ai foundation-models embeddings+5

google 2025년 10월 19일

Teaching Gemini to spot exploding stars with just a few examples (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

gemini ai gen-ai multimodal-ai+4

google 2025년 10월 8일

XR Blocks: Accelerating AI + XR innovation (새 탭에서 열림)

Google XR 팀이 공개한 **XR Blocks**는 인공지능(AI)과 확장 현실(XR) 기술의 결합을 가속화하기 위한 오픈 소스 프레임워크로, 몰입형 지능형 컴퓨팅 환경을 구축하는 데 따르는 기술적 장벽을 낮추기 위해 설계되었습니다. 기존의 XR 개발이 인지, 렌더링, 상호작용 시스템을 수동으로 통합해야 하는 고마찰 과정이었다면, XR Blocks는 이를 모듈화된 '플러그 앤 플레이' 방식으로 전환하여 창작자가 복잡한 하위 시스템 구현 대신 사용자 경험 설계에 집중할 수 있게 합니다. 이 프레임워크는 WebXR, three.js, LiteRT, Gemini 등 접근성 높은 기술을 기반으로 하며, 데스크톱 시뮬레이터와 Android XR 기기 모두에서 작동하는 범용성을 갖추고 있습니다. **창작자 중심의 설계 원칙** * **단순성과 가독성:** Python의 철학(Zen of Python)에서 영감을 받아, 개발자의 스크립트가 마치 고수준의 경험을 묘사하는 문장처럼 읽힐 수 있도록 깨끗하고 직관적인 추상화를 제공합니다. * **창작자 경험 우선:** 센서 데이터 융합이나 AI 모델 통합과 같은 복잡한 '하위 배관 작업'에 시간을 허비하지 않고, 지능적이고 인지적인 XR 애플리케이션의 핵심 로직 개발에만 몰입할 수 있는 환경을 조성합니다. * **실용적 유연성:** 기술의 빠른 변화에 대응하기 위해 완벽한 단일 체계를 지향하기보다, 모듈화되고 적응력 높은 아키텍처를 채택하여 다양한 기기와 환경에서 유연하게 작동하도록 했습니다. **리얼리티 모델과 추상화 계층** * **Script와 실행의 분리:** 상호작용의 내용(What)을 정의하는 'Script'와 이를 저수준에서 구현하는 방식(How)을 분리하여 시스템의 복잡도를 관리합니다. * **사용자 및 물리 세계 인지:** 손의 움직임, 시선(Gaze), 아바타와 같은 사용자 요소와 깊이 맵(Depth), 조명 추정, 객체 인식 등 물리적 환경 정보를 손쉽게 쿼리하고 활용할 수 있습니다. * **AI 및 지능형 에이전트 통합:** 가상 인터페이스(UI)뿐만 아니라 맥락을 이해하고 능동적으로 제안을 수행하는 'Sensible Agent'와 같은 AI 기능을 프레임워크 내에서 직접 구현할 수 있습니다. **실제 적용 사례 및 가치** * **XR 리얼리티 가속화:** 깊이 인식과 물리 기반 상호작용을 시뮬레이션 환경에서 프로토타이핑하고, 동일한 코드를 실제 XR 기기에 즉시 배포하여 개발 사이클을 단축할 수 있습니다. * **맞춤형 상호작용 설계:** 사용자 정의 제스처 모델을 데스크톱 시뮬레이터와 온디바이스 XR 환경에 원활하게 통합하여 독창적인 인터랙션을 실험할 수 있습니다. 이 프레임워크는 아이디어를 인터랙티브한 프로토타입으로 빠르게 전환하고자 하는 개발자와 연구자들에게 강력한 도구가 될 것입니다. 특히 웹 기반 기술을 활용하므로 높은 접근성을 제공하며, Android XR 생태계와의 호환성을 통해 차세대 AI+XR 애플리케이션 개발의 표준적인 출발점을 제시합니다.

gemini ai webxr litert+4

google 2025년 9월 29일

The anatomy of a personal health agent (새 탭에서 열림)

구글 리서치는 웨어러블 기기의 시계열 데이터와 혈액 지표 등 다중 모드(multimodal) 데이터를 분석하여 개인화된 건강 통찰력을 제공하는 LLM 기반의 '개인 건강 에이전트(PHA)' 연구 프레임워크를 공개했습니다. 이 시스템은 데이터 과학, 도메인 전문가, 건강 코치라는 세 가지 전문 서브 에이전트로 구성된 멀티 에이전트 아키텍처를 채택하여 사용자의 복잡하고 모호한 건강 질문에 정밀하게 대응합니다. 대규모 실제 사용자 데이터를 활용한 광범위한 평가 결과, PHA는 기존 단일 LLM 대비 데이터 분석 및 의학적 근거 기반 조언 측면에서 월등한 성능을 입증하며 차세대 개인용 건강 관리 도구의 가능성을 제시했습니다. **사용자 중심 설계와 멀티 에이전트 구조** * 1,300개 이상의 실제 건강 질문과 500명 이상의 사용자 설문 조사를 분석하여 일반 건강 지식 이해, 개인 데이터 해석, 실천 가능한 조언, 증상 평가라는 4가지 핵심 요구 사항을 도출했습니다. * 인간 전문가 팀의 업무 방식을 모방하여 데이터 과학자, 도메인 전문가, 개인 건강 코치 역할을 수행하는 서브 에이전트들이 협업하는 구조를 설계했습니다. * 약 1,200명의 사용자로부터 동의를 얻은 핏빗(Fitbit) 활동 데이터, 건강 설문, 혈액 검사 결과를 포함한 리얼 월드 데이터셋을 평가에 활용하여 실무적인 유효성을 검증했습니다. **데이터 과학 에이전트: 시계열 데이터의 수치적 해석** * 웨어러블 기기의 복잡한 시계열 데이터를 분석하며, "최근에 더 건강해졌나요?"와 같은 사용자의 모호한 질문을 구체적인 통계 분석 계획으로 변환합니다. * 분석 계획 수립과 코드 생성의 2단계 프로세스를 거쳐 통계적으로 유효한 답변을 도출하며, 생성된 코드는 실제 데이터에서 즉시 실행 가능한 수준의 정확도를 갖췄습니다. * 평가 결과, 데이터 분석 계획 수립 능력에서 75.6%의 점수를 기록하며 기본 모델(Gemini, 53.7%)을 크게 상회하는 성능을 보였습니다. **도메인 전문가 에이전트: 근거 기반의 신뢰할 수 있는 정보** * NCBI(미국 국립생물정보센터)와 같은 권위 있는 외부 데이터베이스에 접근하여 검증된 사실에 기반한 답변을 생성하는 다단계 추론 프레임워크를 사용합니다. * 사용자의 기저 질환이나 개인 프로필에 맞춰 정보를 맞춤화하여 제공하며, 전문 보건 자격시험 문항 및 감별 진단 능력을 평가하는 벤치마크에서 우수한 성과를 거두었습니다. * 의료 전문가와 일반 소비자 모두를 대상으로 한 인간 평가를 통해 정보의 정확성과 안전성을 동시에 확보했습니다. 이 연구는 범용 LLM의 한계를 넘어 전문화된 에이전트 간의 협업이 개인화된 의료 AI 서비스에서 얼마나 중요한지를 잘 보여줍니다. 앞으로 이러한 기술이 실제 서비스에 적용된다면, 사용자는 자신의 건강 데이터를 단순히 수집하는 것을 넘어 능동적으로 이해하고 실질적인 생활 습관 변화를 이끌어내는 강력한 조력자를 얻게 될 것입니다.

gemini ai llm multimodal-ai+5

google 2025년 9월 29일

AI as a research partner: Advancing theoretical computer science with AlphaEvolve (새 탭에서 열림)

Google DeepMind는 LLM 기반 코딩 에이전트인 AlphaEvolve를 활용해 복잡도 이론(Complexity Theory)의 난제를 해결하고 새로운 수학적 구조를 발견하는 성과를 거두었습니다. 이 연구는 AI가 단순히 문제를 푸는 수준을 넘어, '리프팅(Lifting)' 기법을 통해 유한한 구조를 최적화함으로써 보편적인 수학적 정리를 증명하는 강력한 연구 파트너가 될 수 있음을 보여줍니다. 결과적으로 MAX-4-CUT 문제의 근사 난이도와 무작위 그래프 특성 인증 분야에서 기존 기록을 경신하며 이론 전산학의 지평을 넓혔습니다. ### AlphaEvolve의 반복적 진화 메커니즘 * AlphaEvolve는 Gemini와 같은 LLM을 기반으로 코드를 반복적으로 진화시키는 피드백 루프 시스템입니다. * 초기 코드 조각(Population)에서 시작하여 생성된 구조의 성능을 평가하고, 가장 우수한 코드를 LLM이 변형(Morph)하여 더 나은 솔루션을 찾아가는 과정을 반복합니다. * 수학 및 이론 전산학에서 요구되는 절대적인 정확성을 보장하기 위해, AI가 생성한 모든 수학적 구조는 인간의 개입 없이 컴퓨터 프로그램에 의해 자동으로 검증되도록 설계되었습니다. ### '리프팅(Lifting)'을 통한 유한 구조의 보편적 증명 확장 * AI는 특정 사례(유한한 구조)를 찾는 데 능숙하지만, 전산학 정리는 모든 문제 크기($\forall n$)에 대해 성립해야 한다는 간극이 존재합니다. * 연구진은 전체 증명 프레임워크 내에서 특정 부분(유한한 구조)만 AI로 최적화하고, 이를 다시 전체 증명에 결합하여 보편적인 결과로 확장하는 '리프팅' 기법을 도입했습니다. * 특히 기존에 연구자들이 수작업으로 설계하던 복잡한 '가젯 리덕션(Gadget reduction)'을 AlphaEvolve가 수행하게 함으로써, 인간이 발견하기 어려운 정교하고 효율적인 구조를 도출해냈습니다. ### 복잡도 이론에서의 주요 성과 * **MAX-4-CUT 문제의 한계 돌파:** 그래프의 노드를 4개의 집합으로 분할할 때 가로지르는 엣지를 최대화하는 문제에서, 기존 기록을 경신하는 새로운 근사 불가능성(Inapproximability) 하한선을 제시했습니다. * **무작위 그래프(Random Graphs) 인증:** 무작위 그래프의 특정 성질을 인증하는 데 필요한 '평균 사례 난이도(Average-case hardness)'의 경계를 더욱 정밀하게 좁히는 데 성공했습니다. * 이러한 성과들은 AI가 발견한 유한한 구조를 기존의 견고한 수학적 증명 체계에 성공적으로 통합할 수 있음을 입증합니다. 이 연구는 AI가 정교한 증명 요소를 생성하고 이를 시스템이 검증하는 협업 모델이 이론적 난제 해결에 실질적인 돌파구를 마련할 수 있음을 보여줍니다. 이론 전산학 연구자들은 앞으로 AI를 단순한 보조 도구가 아닌, 인간의 직관을 넘어서는 복잡한 증명 구조를 설계하고 최적화하는 핵심 연구 파트너로 활용할 수 있을 것입니다.

gemini ai llm theoretical-computer-science+5