multimodal-ai | Techlist.io

MedGemma 1.5를 (새 탭에서 열림)

구글 리서치는 의료용 생성형 AI 모델인 MedGemma의 기능을 대폭 강화한 'MedGemma 1.5 4B'와 의료 전문 음성 인식 모델 'MedASR'을 새롭게 공개했습니다. 이번 업데이트는 CT, MRI 등 고차원 의료 영상 분석과 시계열 데이터 처리 능력을 크게 향상시켜 개발자들이 보다 정밀한 의료 보조 애플리케이션을 구축할 수 있도록 돕습니다. 오픈 모델로 제공되는 이 기술들은 연구 및 상업적 목적으로 자유롭게 활용 가능하며, 의료 현장의 디지털 전환을 가속화하는 핵심 도구가 될 것으로 기대됩니다. **MedGemma 1.5의 고차원 의료 영상 처리 역량** * 기존 2차원 이미지를 넘어 CT와 MRI 같은 3차원 볼륨 데이터, 그리고 대용량 병리 조직 슬라이드(Whole-slide histopathology) 분석 기능을 새롭게 지원합니다. * 여러 장의 이미지 슬라이드나 패치를 입력값으로 받아 복합적인 추론이 가능하며, 내부 벤치마크 결과 CT 관련 질환 분류 정확도는 기존 대비 3%, MRI는 14% 향상되었습니다. * 흉부 엑스레이의 시계열 검토(Longitudinal review) 기능을 통해 환자의 과거와 현재 상태 변화를 추적하거나, 특정 해부학적 특징의 위치를 파악하는 로컬라이제이션 기능이 강화되었습니다. * 의료 실험 보고서와 같은 비정형 문서에서 구조화된 데이터를 추출하는 의료 문서 이해 능력이 개선되어 데이터 관리 효율성을 높였습니다. **의료 음성 인식 모델 MedASR과 개발 생태계** * MedASR은 의료 전문 용어와 진단 받아쓰기에 최적화된 자동 음성 인식 모델로, 의료진의 음성을 텍스트로 변환하여 MedGemma의 추론 엔진과 즉시 연동할 수 있습니다. * MedGemma 1.5 4B 모델은 오프라인에서도 실행 가능한 효율적인 크기로 설계되어, 연산 자원이 제한된 환경에서도 높은 성능을 유지하며 유연하게 배포할 수 있습니다. * 구글은 10만 달러 규모의 상금을 건 'MedGemma Impact Challenge' 해커톤을 Kaggle에서 개최하여 전 세계 개발자들이 의료 AI를 창의적으로 활용할 수 있도록 독려하고 있습니다. * 모든 모델은 Hugging Face와 Google Cloud Vertex AI를 통해 제공되어, 개발자가 자신의 유스케이스에 맞춰 모델을 미세 조정하고 대규모 애플리케이션으로 확장하기 용이합니다. 의료 AI 애플리케이션을 개발하려는 엔지니어는 MedGemma 1.5 4B를 시작점으로 삼아 로컬 환경에서 프로토타입을 구축하는 것이 효율적입니다. 특히 MedASR을 활용해 의료진의 구두 기록을 텍스트화하고 이를 MedGemma의 다중 모달 분석 기능과 결합한다면, 실시간 진단 보조 및 임상 의사 결정 지원 분야에서 강력한 경쟁력을 확보할 수 있을 것입니다.

multimodal-ai ai gen-ai speech-to-text+5

kakao

“생각하고 답변하는” 카카오의 하이브리드 멀티모달 언어모델, Kanana-v-4b-hybrid 개발기 - tech.kakao.com (새 탭에서 열림)

카카오가 개발한 'Kanana-v-4b-hybrid'는 단순한 이미지 인식을 넘어 논리적 추론과 자기 점검 기능을 갖춘 하이브리드 멀티모달 언어모델입니다. 이 모델은 단일 시스템 내에서 일상적인 대화와 복잡한 시각적 추론을 동시에 수행하며, 특히 한국어 특유의 섬세한 제약 조건을 정확히 이해하고 처리하는 데 최적화되어 있습니다. 이를 통해 한국어 기반의 검정고시 및 수능 문항 평가인 KoNET에서 92.8점이라는 높은 성적을 거두며 한국형 AI의 새로운 가능성을 입증했습니다. ### 하이브리드 대응을 위한 단일 모델 구조 * 직관적 응답이 필요한 일반 대화와 논리적 단계가 필요한 추론 모델을 분리하지 않고 하나의 모델로 통합했습니다. * 별도의 라우팅(Routing) 시스템 없이도 한 대화 세션 내에서 시시각각 변하는 질의 성격에 유연하게 대응할 수 있습니다. * 모델 통합을 통해 응답 톤, 포맷, 안전 정책의 일관성을 유지하며, 시스템 운영 복잡도와 유지보수 비용을 획기적으로 낮췄습니다. ### 검증 가능한 결론을 도출하는 시각적 추론 * 이미지를 단순히 설명하는 수준을 넘어, 이미지 내 정보를 종합하고 조건을 적용하여 결론을 도출하는 '시각적 추론'에 집중했습니다. * 모델 스스로 정보 종합, 추론 전개, 결과 검증, 최종 답변의 단계를 거치도록 설계되어 답변의 근거가 명확합니다. * 영수증 검산, 표 기반 조건 필터링, 이미지 기반 수학 문제 풀이 등 단순 OCR로는 해결하기 어려운 복잡한 과제에서 높은 정확도를 보여줍니다. ### 신뢰도를 높이는 자기 점검(Reflection) 메커니즘 * 자신의 추론 과정을 스스로 재검토하여 모순이나 실수 가능성을 찾아내는 자기 점검 기능을 탑재했습니다. * 복잡한 멀티모달 질의에서 발생하기 쉬운 조건 누락이나 사소한 계산 실수를 스스로 발견하고 수정하는 패턴을 보입니다. * 이러한 '자기 수정' 과정은 모델의 단순한 정확성을 넘어, 사용자가 AI의 답변을 믿고 사용할 수 있게 만드는 핵심적인 신뢰 요인이 됩니다. ### 한국어 직관을 보존하는 로컬 추론 프로세스 * '~만 제외하고', '단, ~인 경우에만'과 같은 한국어 특유의 복잡한 예외 및 조건부 표현을 번역 없이 한국어 그대로 사고합니다. * 영문 추론 과정에서 발생할 수 있는 의미 왜곡이나 정보 누락을 방지하여 한국어 질의의 의도를 끝까지 유지합니다. * 이미지 속 한국어 텍스트 정보를 다른 언어로 변환하지 않고 직접 처리함으로써 정보의 손실 없는 논리 전개가 가능합니다. Kanana-v-4b-hybrid는 높은 기술적 완성도를 바탕으로 실제 서비스 환경에서 비용 효율성과 정확성을 동시에 잡으려는 환경에 적합합니다. 특히 한국어 환경에서의 정밀한 업무 보조나 교육용 AI 솔루션처럼 정답의 신뢰도가 중요한 분야에서 이 모델의 하이브리드 추론 능력은 강력한 경쟁력이 될 것입니다.

multimodal-ai kanana chain-of-thought ocr+3

google

구글 리서치 20 (새 탭에서 열림)

2025년 구글 리서치는 기초 연구가 실제 제품과 사회적 가치로 연결되는 '혁신의 마법 주기(Magic Cycle)'를 가속화하며 생성형 AI, 과학적 발견, 양자 컴퓨팅 분야에서 기념비적인 성과를 거두었습니다. 제미나이 3(Gemini 3)로 대표되는 모델의 효율성과 사실성 개선은 물론, 스스로 도구를 사용하는 에이전트 모델과 질병 치료를 위한 바이오 AI 기술을 통해 기술적 한계를 한 단계 더 확장했습니다. 이러한 연구 결과는 단순한 기술 진보를 넘어 기후 변화 대응과 교육 등 인류 공통의 과제를 해결하는 데 실질적인 기여를 하고 있습니다. **생성형 모델의 효율성 및 신뢰성 고도화** * **추론 효율성 최적화:** '투기적 디코딩(Speculative decoding)'과 가상 머신 작업 수명을 예측하는 'LAVA' 알고리즘을 도입하여 대규모 클라우드 데이터 센터의 리소스 효율성과 비용 절감을 실현했습니다. * **사실성(Factuality) 강화:** 2021년부터 이어진 LLM 사실성 연구를 집대성하여 제미나이 3를 역대 가장 사실적인 모델로 구축했으며, FACTS 벤치마크 등을 통해 모델의 정보 근거 제시 능력을 입증했습니다. * **다국어 및 다문화 대응:** 오픈 모델인 '젬마(Gemma)'를 140개 이상의 언어로 확장하고, 문화적 맥락을 이해하는 'TUNA' 분류 체계와 'Amplify' 이니셔티브를 통해 글로벌 사용자에게 최적화된 AI 경험을 제공합니다. **생성형 UI와 지능형 에이전트의 등장** * **인터랙티브 인터페이스:** 사용자의 프롬프트에 따라 웹페이지, 게임, 도구 등의 시각적 인터페이스를 실시간으로 생성하는 '생성형 UI'를 제미나이 3에 도입했습니다. * **에이전트 기능(Agentic AI):** 단순 응답을 넘어 복잡한 작업을 수행하는 '프로젝트 자비스(Project Jarvis)'와 웹 브라우징 에이전트를 통해 사용자의 일상 업무를 자동화하는 능력을 선보였습니다. * **코드 및 추론 능력:** 고도화된 추론 아키텍처를 통해 소프트웨어 엔지니어링 성능을 비약적으로 향상시켰으며, 이는 구글 내부 코드의 25% 이상이 AI에 의해 생성되는 결과로 이어졌습니다. **과학적 혁신과 헬스케어의 진보** * **생물학적 발견:** 단백질 구조 예측을 넘어 분자 상호작용을 모델링하는 'AlphaFold 3'와 새로운 단백질을 설계하는 'AlphaProteo'를 통해 신약 개발과 질병 이해의 속도를 높였습니다. * **의료 특화 모델:** 'Med-Gemini'와 같은 의료 전용 모델을 개발하여 흉부 엑스레이 분석, 유전체 데이터 해석 등 전문적인 의료 진단 보조 도구로서의 가능성을 확인했습니다. * **뇌 과학 연구:** 하버드 대학과의 협력을 통해 인간 대뇌 피질의 시냅스 수준 지도를 제작하는 등 신경과학 분야에서도 전례 없는 성과를 냈습니다. **양자 컴퓨팅과 지구 과학을 통한 미래 대비** * **양자 우위와 실용화:** 양자 오류 정정 기술의 혁신을 통해 실제 문제 해결에 활용 가능한 양자 컴퓨팅 시대를 앞당겼습니다. * **기후 및 환경 대응:** 산불을 실시간으로 추적하는 'FireSat' 위성 네트워크와 비행운(Contrails) 감소 연구 등을 통해 기후 위기 대응을 위한 구체적인 AI 솔루션을 제시했습니다. * **책임감 있는 AI:** 콘텐츠의 출처를 밝히는 'SynthID' 워터마킹 기술을 텍스트와 비디오로 확대 적용하여 AI 생성 콘텐츠의 투명성과 안전성을 강화했습니다. 구글의 2025년 성과는 AI가 단순한 보조 도구를 넘어 과학 연구의 속도를 높이고 복잡한 사회 문제를 해결하는 강력한 에이전트로 진화했음을 보여줍니다. 기업과 연구자는 이제 단순한 챗봇 구현을 넘어, 특정 도메인에 특화된 에이전트 모델과 생성형 UI를 활용한 새로운 사용자 경험 설계에 집중해야 할 시점입니다.

multimodal-ai ai llm gen-ai+5

naver

VLOps: 이벤트 기반 MLO (새 탭에서 열림)

VLOps는 학습, 평가, 배포 과정을 Typed Message 단위로 정의하고 이를 감지해 자율적으로 실행하는 이벤트 기반 MLOps 시스템입니다. 기존 파이프라인 방식의 복잡성을 해결하고 시스템 간 느슨한 결합을 통해 클라우드 호환성과 기능 확장성을 극대화한 것이 특징입니다. 이를 통해 사용자는 내부의 복잡한 오케스트레이션 구조를 몰라도 메시지 발행만으로 효율적인 모델 관리 파이프라인을 구동할 수 있습니다. **이벤트 기반 MLOps의 핵심 구조** * 학습, 평가, 배포 등 MLOps의 각 단계를 Typed Message라는 독립적인 데이터 단위로 정의하여 관리합니다. * Event Sensor가 발행된 메시지를 실시간으로 감지하고, 정의된 로직에 따라 적절한 작업을 자율적으로 수행하는 구조를 가집니다. * 메시지 중심의 설계를 통해 각 시스템 간 의존성을 낮추는 느슨한 결합(Loose Coupling)을 실현하여, 특정 클라우드 환경에 종속되지 않는 호환성을 확보했습니다. **기존 파이프라인 방식과의 차별점** * Kubeflow와 같은 전통적인 파이프라인 도구와 달리, 전체 워크플로우에 대한 엄격한 버전 관리가 강제되지 않아 운영의 유연성이 높습니다. * 새로운 기능을 추가할 때 전체 시스템을 재설계할 필요 없이, 단순히 새로운 메시지 타입을 정의하고 추가하는 것만으로 기능을 확장할 수 있습니다. * 사용자는 복잡한 내부 인프라 로직을 이해할 필요 없이 표준화된 메시지만 발행하면 동일한 파이프라인 결과를 얻을 수 있어 개발 경험이 개선됩니다. **Omni-Evaluator와 대시보드를 통한 통합 관리** * Omni-Evaluator는 파편화된 다양한 모델 엔진과 벤치마크 도구들을 하나로 통합하여 일관된 평가 환경을 제공합니다. * VLOps Dashboard를 통해 전체 작업의 진행 상태를 실시간으로 모니터링하고 시각화된 결과 지표를 한눈에 파악할 수 있습니다. * 시스템에 의한 자동 트리거뿐만 아니라, 사용자가 필요 시 직접 이벤트를 발생시켜 특정 평가나 배포를 수행할 수 있는 사용자 주도적 제어 기능을 지원합니다. 모델의 규모가 커지고 복잡해지는 멀티모달 LLM 환경에서는 경직된 파이프라인보다 이벤트 기반의 비동기 아키텍처가 변화에 더 유연하게 대응할 수 있습니다. 인프라의 복잡도를 추상화하고 메시지 기반의 확장성을 확보하려는 조직에게 VLOps와 같은 접근 방식은 매우 실용적인 대안이 될 것입니다.

multimodal-ai mlops orchestration event-driven-architecture+4

aws

Amazon Bedrock, 새로운 Mistral (새 탭에서 열림)

Amazon Bedrock이 Mistral Large 3와 Ministral 3를 포함한 18개의 새로운 오픈 웨이트(Open weight) 모델을 추가하며, 총 100여 개의 서버리스 모델 라인업을 구축하게 되었습니다. 개발자들은 인프라를 변경하거나 코드를 재작성할 필요 없이 단일 API를 통해 구글, 엔비디아, 오픈AI 등 선도적인 AI 기업들의 최신 모델을 자유롭게 선택하고 평가할 수 있습니다. 이번 확장을 통해 기업들은 비용 효율성과 성능 사이의 최적점을 찾아 비즈니스 특성에 맞는 생성형 AI 애플리케이션을 더욱 신속하게 구축할 수 있는 환경을 갖추게 되었습니다. **Mistral AI의 최신 모델 라인업** * **Mistral Large 3**: 긴 문맥(Long-context) 이해와 멀티모달 추론, 코딩 능력에 최적화된 모델로, 복잡한 엔터프라이즈 지식 작업과 에이전트 워크플로우에 강력한 성능을 발휘합니다. * **Ministral 3 3B**: 에지(Edge) 환경에 최적화된 소형 모델로, 단일 GPU에서 효율적으로 구동되며 실시간 번역, 데이터 추출, 이미지 캡셔닝 등 저지연 애플리케이션에 적합합니다. * **Ministral 3 8B/14B**: 텍스트와 시각 정보 처리에 있어 동급 최강의 성능을 제공하며, 하드웨어 제약이 있는 온디바이스 환경이나 프라이빗 AI 배포 시 고급 에이전트 기능을 구현하는 데 사용됩니다. **다양한 산업군을 위한 오픈 웨이트 모델 확장** * **Google Gemma 3 4B**: 노트북이나 모바일 기기에서 로컬로 실행할 수 있는 효율적인 다국어 모델로, 개인화된 온디바이스 AI 경험을 제공하는 데 유리합니다. * **광범위한 파트너십**: 구글, MiniMax AI, Moonshot AI, NVIDIA, OpenAI, Qwen 등의 최신 모델이 포함되어, 특정 언어나 산업 도메인에 특화된 선택지가 대폭 늘어났습니다. * **서버리스 및 통합 관리**: 모든 모델은 AWS가 완전히 관리하는 서버리스 방식으로 제공되므로, 사용자들은 별도의 GPU 서버 관리 부담 없이 API 호출만으로 최첨단 모델을 즉시 활용할 수 있습니다. **Bedrock 플랫폼의 유연성과 편의성** * **통합 API 아키텍처**: 서로 다른 제조사의 모델이라도 동일한 API 구조를 사용하므로, 성능 평가 결과에 따라 애플리케이션의 모델을 손쉽게 교체하거나 업그레이드할 수 있습니다. * **지속적인 큐레이션**: AWS는 고객의 요구사항과 기술적 발전을 모니터링하여 유망한 신규 모델과 검증된 업계 표준 모델을 지속적으로 업데이트하고 있습니다. 개발자는 Amazon Bedrock의 통합 인터페이스를 활용해 각 모델의 벤치마크와 비용 효율성을 비교 분석한 후, 서비스 규모와 하드웨어 환경(에지 컴퓨팅 vs 클라우드)에 가장 적합한 모델을 선별하여 도입하는 전략이 필요합니다. 특히 Ministral 시리즈와 같은 에지 최적화 모델은 클라우드 비용 절감과 데이터 보안이 중요한 프로젝트에서 훌륭한 대안이 될 것입니다.

multimodal-ai ai llm gen-ai+5

naver

사용자의 목소리를 AI로 재현하다: LLM기반 Multi Agent UX플랫폼 개발기 (새 탭에서 열림)

네이버의 'NSona' 프로젝트는 LLM 기반의 멀티 에이전트 시스템을 통해 방대한 사용자 리서치 데이터를 실시간 협업 자원으로 전환하며, 서비스 기획과 실제 개발 사이의 간극을 혁신적으로 줄인 사례를 제시합니다. 디자이너, AI 리서처, 개발자가 협력하여 단순한 기술 구현을 넘어 사용자의 목소리를 생생하게 재현하는 페르소나 봇을 개발함으로써, AI가 도구를 넘어 협업의 주체가 될 수 있음을 증명했습니다. 이를 통해 팀은 사용자의 피드백을 실시간으로 서비스 개발 과정에 투영하고 의사결정의 효율성을 극대화하는 성과를 거두었습니다. **사용자 경험을 재현하는 페르소나 봇 "NSona"** * 기존 UX 리서치가 가진 일회성 데이터의 한계를 극복하고, 리서치 결과를 데일리 협업 과정에서 상시 활용할 수 있는 자산으로 전환하기 위해 기획되었습니다. * 사용자의 특성과 행동 양식을 학습한 페르소나 봇 'NSona'를 통해 기획자나 개발자가 언제든 사용자의 관점에서 서비스에 대한 의견을 물을 수 있는 환경을 구축했습니다. **에이전트 중심의 서비스 구조와 기술적 도전** * 단일 LLM 모델의 한계를 넘어, 특정 서비스 목적에 최적화된 'Agent 중심의 서비스 구조'를 설계하여 보다 정교한 사용자 재현을 시도했습니다. * Multi-Party 대화 시스템을 도입하여 여러 페르소나가 상호작용하며 복합적인 피드백을 제공할 수 있는 기술적 토대를 마련했습니다. * 일반적인 언어 모델 평가 지표 대신, 서비스의 맥락과 UX 요구사항을 반영한 'Service-specific' 평가 프로세스를 독자적으로 구축하여 모델의 품질을 관리했습니다. **AI 시대의 변화된 협업 방식과 R&R** * 전통적인 업무 경계를 허물고 디자이너는 프롬프트를 설계하며, 리서처는 로직을 에이전트 구조로 전환하고, 개발자는 AI를 비평의 대상으로 다루는 새로운 협업 모델을 실천했습니다. * 결과물의 완성도에만 집착하기보다 '어디서 시작점을 찍느냐'에 집중하며, AI를 개발 프로세스의 초기 단계부터 능동적인 파트너로 참여시켰습니다. * 이러한 과정은 직군 간의 선형적인 협업 구조를 유기적인 파장 형태의 협업 구조로 변화시키는 계기가 되었습니다. **사용자 중심 AI 개발을 위한 실무적 제언** 성공적인 AI 서비스를 위해서는 기술적 구현만큼이나 기획, 디자인, 엔지니어링 간의 유기적인 결합이 필수적입니다. NSona의 사례처럼 사용자의 목소리를 데이터 더미가 아닌 대화 가능한 실체로 변환하여 협업의 중심에 배치한다면, 보다 사용자의 니즈에 밀착된 서비스를 더 빠른 속도로 검증하고 개발할 수 있을 것입니다.

multimodal-ai ai llm prompt-engineering+5

google

파형에서 통 (새 탭에서 열림)

Google Research는 음성 지능 모델의 성능을 정밀하게 측정하고 발전시키기 위한 통합 오픈소스 플랫폼인 MSEB(Massive Sound Embedding Benchmark)를 공개했습니다. 이 벤치마크는 검색, 분류, 재구성 등 8가지 핵심 능력을 표준화하여 파편화된 기존 사운드 AI 연구를 통합하고, 범용 사운드 임베딩이 도달해야 할 기술적 목표치를 제시합니다. 초기 실험 결과 현재의 기술력은 범용성 측면에서 개선의 여지가 크며, MSEB는 이를 극복하여 인간 수준의 청각 지능을 구현하기 위한 핵심 지표로 활용될 전망입니다. ### 다각적 평가를 위한 고품질 데이터 세트 구축 * **SVQ(Simple Voice Questions) 데이터**: 17개 언어와 26개 지역의 특성을 반영한 177,352개의 짧은 음성 질의 데이터로, 화자 속성과 시간 정렬 데이터 등 풍부한 메타데이터를 포함합니다. * **실제 소음 환경 반영**: 조용한 상태, 배경 대화, 교통 소음, 미디어 소음 등 네 가지 실제 음향 환경을 시뮬레이션하여 모델의 견고성을 테스트합니다. * **도메인 확장성**: Speech-MASSIVE(의도 분류), FSD50K(환경음 인식), BirdSet(생물 음향학) 등 공공 데이터를 통합하여 인간의 언어를 넘어 자연계의 소리까지 아우르는 범용성을 확보했습니다. ### 청각 지능의 8가지 핵심 능력 정의 * **정보 접근(검색, 추론, 재순위화)**: 음성 질의를 통해 지식 베이스에서 관련 문서를 찾거나(검색), 문서 내 정답을 도출(추론)하고, 모호한 음성 인식 후보군을 원본 의도에 맞게 재정렬(재순위화)하는 능력을 평가합니다. * **기초 인지(분류, 전사, 세분화)**: 소리의 범주와 화자 속성을 분류하고, 음성을 텍스트로 변환(전사)하며, 특정 용어가 나타나는 정확한 시점을 타임스탬프로 파악(세분화)하는 기본 성능을 측정합니다. * **조직 및 생성(클러스터링, 재구성)**: 사전 정의된 레이블 없이 유사한 속성의 음성을 그룹화(클러스터링)하고, 중간 표현체인 임베딩으로부터 원본 오디오 파형을 얼마나 정밀하게 복원(재구성)할 수 있는지 확인합니다. ### 범용 임베딩 성능 분석과 연구 방향 * **성능 여유(Headroom) 확인**: 현재의 사운드 임베딩 기술이 모든 도메인에서 완벽하지 않다는 점을 시사하며, 최신 모델들도 여전히 성능 향상의 여지가 큼을 객관적인 수치로 입증했습니다. * **표준화된 평가 구조**: 단일 모달 모델부터 복합적인 멀티모달 모델까지 동일한 기준에서 성능을 비교할 수 있는 유연하고 확장 가능한 프레임워크를 제공합니다. * **미래 확장성**: 향후 음악 데이터 세트 추가 및 이미지와 결합된 멀티모달 작업으로 영역을 확장하여 실제 환경에서 활용 가능한 지능형 에이전트 개발을 지원할 예정입니다. MSEB는 사운드 기반 AI 연구가 직면한 파편화 문제를 해결하고 차세대 청각 지능을 위한 명확한 이정표를 제시합니다. 연구자들은 이 오픈소스 벤치마크를 활용해 모델의 범용성을 검증하고, 특히 복잡한 소음 환경에서의 데이터 해석 능력을 높이는 데 집중함으로써 더 자연스럽고 지능적인 음성 인터페이스를 구축할 수 있습니다.

multimodal-ai ai machine-learning benchmarking+4

google

생성형 UI: 모든 (새 탭에서 열림)

구글 리서치가 발표한 '제너레이티브 UI(Generative UI)'는 AI 모델이 단순한 텍스트 답변을 넘어 웹페이지, 게임, 도구, 시뮬레이션 등 완전한 사용자 경험(UX)을 실시간으로 생성하는 새로운 기술 패러다임입니다. 이 기술은 사용자의 질문이나 지시사항의 의도를 파악하여 고정된 형식이 아닌, 목적에 최적화된 맞춤형 인터페이스를 즉석에서 설계하고 코딩합니다. 현재 제미나이(Gemini) 앱과 구글 검색의 AI 모드에 통합되어 정적 인터페이스를 동적이고 상호작용 가능한 디지털 환경으로 변모시키고 있습니다. **정적 인터페이스를 넘어서는 새로운 패러다임** * 사용자가 카탈로그에서 기존 앱을 선택하는 대신, AI가 사용자의 니즈에 맞춰 동적으로 인터페이스를 생성하여 제공합니다. * 단일 단어부터 상세한 지침까지 모든 형태의 프롬프트에 대응하며, 단순한 정보 전달을 넘어 학습, 놀이, 탐색이 가능한 상호작용 환경을 구축합니다. * 사용자 평가 결과, 생성 속도를 제외한 품질 측면에서 일반적인 LLM의 텍스트 출력보다 제너레이티브 UI에 대한 선호도가 압도적으로 높게 나타났습니다. **실시간 제품 통합 및 활용 사례** * **제미나이 앱(Dynamic View):** 사용자의 대상층(예: 5세 아이 vs 성인)에 따라 콘텐츠와 기능을 다르게 설계하며, 패션 조언이나 이벤트 계획 등 실질적인 과업 수행을 돕습니다. * **구글 검색(AI Mode):** 제미나이 3의 멀티모달 이해 능력과 에이전트 코딩 역량을 활용하여 복잡한 과학적 시뮬레이션(예: RNA 중합효소 작용 기전) 등을 즉석에서 시각화합니다. * **맞춤형 도구 생성:** 소셜 미디어 포스트 갤러리 제작부터 수학 교육용 게임까지, 프롬프트의 의도에 따라 완전히 고유한 레이아웃과 기능을 갖춘 도구를 생성합니다. **제너레이티브 UI의 기술적 구현 원리** * **제미나이 3 Pro 기반:** 구글의 최신 모델을 핵심 엔진으로 사용하며 세 가지 주요 구성 요소를 추가하여 완성도를 높였습니다. * **도구 액세스(Tool Access):** 서버를 통해 이미지 생성 및 웹 검색 도구에 접근하며, 이를 통해 생성된 결과물을 브라우저에 직접 전송하여 효율성을 극대화합니다. * **정교한 시스템 지침:** 목표 설정, 계획 수립, 기술 사양 및 오류 방지 팁이 포함된 상세한 가이드를 통해 모델이 기능적인 UI를 설계하도록 유도합니다. * **사후 처리(Post-processing):** 모델이 출력한 결과물을 사후 처리 프로세스에 통과시켜 흔히 발생하는 기술적 오류를 수정하고 안정성을 확보합니다. 제너레이티브 UI는 소프트웨어가 사용자의 언어만큼이나 유연하고 적응력 있게 변화하는 미래를 보여줍니다. 구글 검색의 AI 모드나 제미나이 앱의 실험적 기능들을 통해, 정해진 틀에 갇히지 않은 진정한 개인화된 인터페이스를 직접 경험해 보시길 권장합니다.

multimodal-ai ai llm gemini+4

google

StreetReaderAI: 문맥 인식 (새 탭에서 열림)

StreetReaderAI는 구글 리서치에서 개발한 시각장애인 및 저시력자를 위한 혁신적인 스트리트 뷰 프로토타입으로, 멀티모달 AI인 Gemini를 활용해 시각적 정보를 실시간 음성 정보로 변환합니다. 기존 지도 서비스가 제공하지 못했던 스트리트 뷰 이미지의 맥락과 지리적 특성을 실시간 대화형 인터페이스로 설명함으로써, 시각장애인이 가상 세계를 자유롭게 탐색하고 실제 경로를 미리 파악할 수 있도록 돕는 것이 이 기술의 핵심입니다. **사용자 중심의 직관적 내비게이션** * 키보드 화살표 키나 음성 명령을 사용하여 게임을 하듯 가상 공간 내 시점 전환 및 이동이 가능합니다. * 사용자가 시점을 회전할 때마다 현재 방위(예: "북동쪽을 보고 있습니다")와 정면에 랜드마크나 장소가 있는지를 음성으로 즉각 피드백합니다. * "가상 걸음(Virtual steps)" 기능을 통해 앞뒤로 이동하며 이동 거리와 도로 정보, 주변 상점 및 시설물에 대한 정보를 실시간으로 수신할 수 있습니다. **AI 디스크라이버(AI Describer)를 통한 상황별 맥락 인식** * 단순한 이미지 분석을 넘어 사용자의 위도·경도, 도로 데이터, 현재 시야의 스트리트 뷰 이미지를 결합해 맞춤형 설명을 생성합니다. * 보행 안전과 내비게이션 정보에 집중하는 '기본 모드'와 지역의 역사적·건축적 배경을 상세히 설명하는 '투어 가이드 모드'를 제공합니다. * 사용자가 현재 장면에서 궁금해할 만한 후속 질문(예: "저 건물의 입구는 어디인가요?")을 AI가 스스로 예측하여 제안함으로써 탐색의 효율성을 높였습니다. **AI 채팅과 강력한 세션 메모리 기능** * Gemini Multimodal Live API를 활용하여 사용자와 실시간 대화가 가능하며, 사용자의 질문에 맞춰 시각적 정보를 해석합니다. * 약 100만 토큰 이상의 긴 컨텍스트 윈도우를 활용해 사용자가 세션 동안 탐색한 모든 경로와 이미지를 기억합니다. * 이를 통해 "방금 지나온 버스 정류장에 벤치가 있었니?" 또는 "아까 본 편의점에서 여기까지 얼마나 떨어져 있어?"와 같은 과거의 맥락이 포함된 복합적인 질문에 정확히 답변할 수 있습니다. **사용자 평가 및 실무적 시사점** 11명의 시각장애인을 대상으로 한 연구 결과, 사용자들은 StreetReaderAI를 통해 목적지의 지형지물을 미리 확인하고 보행 경로를 계획하는 데 큰 도움을 얻었습니다. 이 기술은 수조 개의 스트리트 뷰 이미지를 텍스트 기반의 데이터로 변환할 필요 없이, 필요할 때마다 실시간으로 AI가 해석해 준다는 점에서 확장성이 매우 높습니다. 향후 이와 같은 멀티모달 AI 기술이 지도 앱에 통합된다면 시각장애인의 이동권과 정보 접근성을 획기적으로 개선할 수 있을 것입니다.

multimodal-ai ai gemini computer-vision+5

google

단 몇 개의 예시 (새 탭에서 열림)

구글 연구진은 대규모 언어 모델인 제미나이(Gemini)에 설문당 단 15개의 주석이 달린 예시만을 학습시키는 '소수 샷 학습(Few-shot Learning)'을 통해, 초신성과 같은 우주 현상을 93%의 정확도로 분류하는 전문가급 천문학 어시스턴트를 개발했습니다. 이 모델은 단순히 '진짜' 혹은 '가짜' 신호를 구분하는 것을 넘어, 자신의 판단 근거를 일상 언어로 설명함으로써 기존 머신러닝 모델의 '블랙박스' 문제를 해결했습니다. 이러한 연구 결과는 매일 밤 수천만 개의 알림이 발생하는 차세대 천문 관측 시대에 과학자들이 데이터를 효율적으로 검증하고 신뢰할 수 있는 협업 도구로 활용될 가능성을 보여줍니다. **기존 천문학 데이터 처리의 병목 현상** * 현대 천문학 관측 장비는 매일 밤 수백만 개의 신호를 생성하지만, 이 중 대다수는 위성 궤적이나 노이즈 같은 가짜 신호(bogus)입니다. * 기존에는 컨볼루션 신경망(CNN) 같은 특화된 모델을 사용해 왔으나, 판단 근거를 설명하지 못하는 '블랙박스' 구조라는 한계가 있었습니다. * 베라 C. 루빈 천문대와 같은 차세대 망원경이 가동되면 매일 밤 1,000만 개의 알림이 쏟아질 예정이어서, 과학자들이 일일이 수동으로 확인하는 것은 불가능에 가깝습니다. **소수 샷 학습을 통한 다중 양식 모델의 진화** * 수백만 개의 데이터로 학습시키는 대신, Pan-STARRS, MeerLICHT, ATLAS 등 세 가지 주요 천문 조사 데이터에서 각각 15개의 예시만 사용했습니다. * 각 학습 예시는 새로운 이미지, 과거의 참조 이미지, 두 이미지의 차이를 보여주는 차분 이미지와 함께 전문가의 주석 및 관심도 점수로 구성되었습니다. * 제미나이는 망원경마다 다른 해상도와 픽셀 스케일에도 불구하고, 최소한의 정보만으로 서로 다른 천문 관측 환경의 데이터를 일반화하여 처리하는 능력을 보여주었습니다. **설명 가능한 AI와 전문가 수준의 정확도** * 제미나이는 특화된 CNN 모델과 대등한 93%의 평균 정확도를 기록하며 우주 이벤트를 분류해냈습니다. * 모델은 레이블뿐만 아니라 관찰된 특징을 설명하는 텍스트와 후속 관측 우선순위를 정할 수 있는 관심도 점수(0~5점)를 함께 생성합니다. * 12명의 전문 천문학자 패널이 검토한 결과, 모델의 설명은 논리적 일관성이 매우 높았으며 실제 전문가의 추론 방식과 일치함을 확인했습니다. **모델의 자가 불확실성 평가 능력** * 모델이 스스로 자신의 설명에 대해 '일관성 점수(coherence score)'를 매기도록 유도하는 중요한 발견을 했습니다. * 일관성 점수가 낮게 측정된 경우 실제 오분류일 확률이 높다는 사실이 밝혀졌으며, 이는 모델이 스스로 언제 오류를 범할지 판단할 수 있음을 의미합니다. * 이러한 자가 진단 기능은 과학자들이 어떤 데이터를 추가로 정밀 검토해야 하는지 판단하는 데 결정적인 도움을 줍니다. 이번 연구는 범용 멀티모달 모델이 최소한의 가이드라인만으로도 고도의 전문 과학 영역에서 블랙박스 없는 투명한 파트너가 될 수 있음을 입증했습니다. 천문학자들은 이제 방대한 데이터 속에서 유망한 후보를 찾기 위해 모델과 대화하며 추론 과정을 검토할 수 있으며, 이는 향후 대규모 데이터가 쏟아지는 모든 과학 연구 분야에 중요한 이정표가 될 것입니다.

multimodal-ai ai gen-ai gemini+4

google

개인 건강 에이전트 (새 탭에서 열림)

구글 리서치는 웨어러블 기기의 시계열 데이터와 혈액 지표 등 다중 모드(multimodal) 데이터를 분석하여 개인화된 건강 통찰력을 제공하는 LLM 기반의 '개인 건강 에이전트(PHA)' 연구 프레임워크를 공개했습니다. 이 시스템은 데이터 과학, 도메인 전문가, 건강 코치라는 세 가지 전문 서브 에이전트로 구성된 멀티 에이전트 아키텍처를 채택하여 사용자의 복잡하고 모호한 건강 질문에 정밀하게 대응합니다. 대규모 실제 사용자 데이터를 활용한 광범위한 평가 결과, PHA는 기존 단일 LLM 대비 데이터 분석 및 의학적 근거 기반 조언 측면에서 월등한 성능을 입증하며 차세대 개인용 건강 관리 도구의 가능성을 제시했습니다. **사용자 중심 설계와 멀티 에이전트 구조** * 1,300개 이상의 실제 건강 질문과 500명 이상의 사용자 설문 조사를 분석하여 일반 건강 지식 이해, 개인 데이터 해석, 실천 가능한 조언, 증상 평가라는 4가지 핵심 요구 사항을 도출했습니다. * 인간 전문가 팀의 업무 방식을 모방하여 데이터 과학자, 도메인 전문가, 개인 건강 코치 역할을 수행하는 서브 에이전트들이 협업하는 구조를 설계했습니다. * 약 1,200명의 사용자로부터 동의를 얻은 핏빗(Fitbit) 활동 데이터, 건강 설문, 혈액 검사 결과를 포함한 리얼 월드 데이터셋을 평가에 활용하여 실무적인 유효성을 검증했습니다. **데이터 과학 에이전트: 시계열 데이터의 수치적 해석** * 웨어러블 기기의 복잡한 시계열 데이터를 분석하며, "최근에 더 건강해졌나요?"와 같은 사용자의 모호한 질문을 구체적인 통계 분석 계획으로 변환합니다. * 분석 계획 수립과 코드 생성의 2단계 프로세스를 거쳐 통계적으로 유효한 답변을 도출하며, 생성된 코드는 실제 데이터에서 즉시 실행 가능한 수준의 정확도를 갖췄습니다. * 평가 결과, 데이터 분석 계획 수립 능력에서 75.6%의 점수를 기록하며 기본 모델(Gemini, 53.7%)을 크게 상회하는 성능을 보였습니다. **도메인 전문가 에이전트: 근거 기반의 신뢰할 수 있는 정보** * NCBI(미국 국립생물정보센터)와 같은 권위 있는 외부 데이터베이스에 접근하여 검증된 사실에 기반한 답변을 생성하는 다단계 추론 프레임워크를 사용합니다. * 사용자의 기저 질환이나 개인 프로필에 맞춰 정보를 맞춤화하여 제공하며, 전문 보건 자격시험 문항 및 감별 진단 능력을 평가하는 벤치마크에서 우수한 성과를 거두었습니다. * 의료 전문가와 일반 소비자 모두를 대상으로 한 인간 평가를 통해 정보의 정확성과 안전성을 동시에 확보했습니다. 이 연구는 범용 LLM의 한계를 넘어 전문화된 에이전트 간의 협업이 개인화된 의료 AI 서비스에서 얼마나 중요한지를 잘 보여줍니다. 앞으로 이러한 기술이 실제 서비스에 적용된다면, 사용자는 자신의 건강 데이터를 단순히 수집하는 것을 넘어 능동적으로 이해하고 실질적인 생활 습관 변화를 이끌어내는 강력한 조력자를 얻게 될 것입니다.

multimodal-ai ai llm gemini+5

google

Sensible Agent: 선제적 (새 탭에서 열림)

구글 XR 연구팀이 개발한 'Sensible Agent'는 사용자의 명시적인 음성 명령 없이도 실시간 맥락을 파악해 능동적으로 도움을 주는 AR 에이전트 프레임워크입니다. 이 시스템은 시선, 손의 사용 가능 여부, 주변 소음 등의 데이터를 분석하여 지원의 내용(What)과 전달 방식(How)을 동시에 결정함으로써 일상생활의 흐름을 방해하지 않는 비침해적 상호작용을 구현합니다. 결과적으로 사회적 어색함과 인지적 부담을 줄여 AR 기기가 일상에 자연스럽게 통합될 수 있는 기술적 토대를 제시합니다. ### 능동형 지원의 핵심: 무엇을(What)과 어떻게(How)의 결합 * **지능적 판단 구조:** 에이전트는 사용자의 상황을 실시간으로 감지하여 도움의 필요성(Action)뿐만 아니라, 그 도움을 어떤 UI 형태(아이콘, 선택지 등)와 매체(시각, 청각 등)로 전달할지 스스로 판단합니다. * **상황별 맞춤형 대응:** 예를 들어 사용자가 식당에서 메뉴판을 볼 때는 인기 메뉴를 추천하고, 마트에서는 장바구니 목록을 조용히 띄워주는 식의 능동적인 지원이 가능합니다. * **비침해성 유지:** 주변이 시끄럽거나 대화 중인 상황에서는 음성 대신 시각적 아이콘을 사용하고, 손이 자유롭지 않을 때는 고개 끄덕임 등으로 입력을 받는 등 주변 환경과 조화를 이루는 상호작용 방식을 선택합니다. ### 맥락 분석 및 쿼리 생성 프로세스 * **맥락 파서(Context Parser):** 헤드셋 카메라의 영상을 분석하는 시각 언어 모델(VLM)과 주변 소음을 감지하는 오디오 분류기(YAMNet)를 통해 사용자의 현재 활동과 환경적 제약을 파악합니다. * **능동형 쿼리 생성기:** 파악된 맥락을 바탕으로 LLM의 '사고의 사슬(Chain-of-Thought)' 추론 기법을 활용해 단계별 문제를 해결하고 최적의 제안을 생성합니다. * **퓨샷 러닝(Few-shot Learning):** 데이터 수집 연구에서 도출된 사례들을 학습 가이드로 활용하여, 모델이 특정 상황에서 어떤 행동(예: 번역, 추천)과 출력 방식(예: 오디오 전용, 시각 전용)이 적절한지 정확하게 결정하도록 돕습니다. ### 맥락에 최적화된 비침해적 상호작용 모듈 * **다중 모달리티 인터페이스:** 안드로이드 XR(Android XR) 및 WebXR 기반으로 구현된 이 프로토타입은 텍스트 음성 변환(TTS)과 시각적 패널 렌더링을 상황에 맞춰 혼합 사용합니다. * **적응형 입력 관리:** 환경과 사용자의 상태에 따라 가장 적합한 입력 방식(머리 제스처, 손 제스처, 음성 명령, 시선 처리 등)을 활성화합니다. * **사회적 맥락 존중:** 사용자가 요리 중이라 손을 쓸 수 없을 때는 고개 흔들기로 제안을 거절할 수 있게 하거나, 공공장소에서는 조용히 시각 정보만 노출하여 사회적 불편함을 최소화합니다. ### 실용적 결론 및 전망 Sensible Agent는 기존 AR 시스템이 가졌던 '명시적 명령 기반'의 한계를 극복하고, 사용자의 인지 부하를 낮추는 방향으로 진화했습니다. 이는 향후 AR 글래스가 단순한 정보 표시 장치를 넘어, 사용자의 의도를 선제적으로 파악하고 상황에 맞게 행동하는 '사회적으로 지능적인' 파트너로 발전할 수 있음을 보여줍니다. 실제 일상에서의 실용성을 높이기 위해서는 다양한 소음 환경과 복합적인 사회적 시나리오에서의 정밀한 맥락 인식 기술이 더욱 중요해질 것으로 보입니다.

multimodal-ai ai augmented-reality android-xr+5

google

SensorLM: 웨어러블 (새 탭에서 열림)

구글 리서치가 발표한 SensorLM은 약 6,000만 시간 분량의 방대한 웨어러블 센서 데이터를 자연어와 연결하여 학습한 새로운 유형의 센서-언어 파운데이션 모델입니다. 이 모델은 스마트워치 등이 수집하는 복잡한 센서 신호를 인간이 이해할 수 있는 정교한 설명으로 변환함으로써, 단순한 수치 기록을 넘어 행동의 맥락과 원인을 파악하는 헬스케어의 새로운 지평을 열었습니다. 대규모 멀티모달 학습을 통해 제로샷 활동 인식 및 텍스트 생성 분야에서 기존 모델을 뛰어넘는 성능을 입증하며 개인 맞춤형 건강 관리의 가능성을 제시합니다. **데이터셋 구축 및 자동화된 캡션 생성** - 127개국 10만 명 이상의 동의를 얻은 익명화된 핏빗(Fitbit) 및 픽셀 워치 데이터를 활용하여 총 5,970만 시간 분량의 역대 최대 규모 센서-언어 데이터셋을 구축했습니다. - 사람이 일일이 데이터를 라벨링하는 비용 문제를 해결하기 위해, 센서 데이터의 통계 정보와 추세, 주요 이벤트를 분석하여 자동으로 상세한 설명을 생성하는 '계층적 파이프라인'을 개발했습니다. - 이를 통해 기존 연구들보다 수십 배 큰 규모의 데이터를 확보함으로써 고차원 센서 신호와 자연어 사이의 미세한 상관관계를 학습할 수 있는 기반을 마련했습니다. **대조 학습과 생성 학습의 통합 아키텍처** - 센서 조각과 텍스트 설명을 매칭하는 '대조 학습(Contrastive Learning)'을 적용하여 수영이나 근력 운동 같은 서로 다른 활동을 정밀하게 구분하는 능력을 갖췄습니다. - 고차원 센서 신호로부터 직접 맥락에 맞는 텍스트 캡션을 생성하는 '생성형 사전 학습(Generative Pre-training)'을 결합하여 데이터의 의미를 능동적으로 해석하도록 설계했습니다. - 두 학습 전략을 단일 프레임워크로 통합함으로써 센서 데이터의 통계적 특성뿐만 아니라 구조적, 의미론적 차원까지 아우르는 깊이 있는 이해가 가능해졌습니다. **활동 인식 및 교차 모달 검색 능력** - 별도의 미세 조정(Fine-tuning) 없이도 20가지 활동을 정확히 분류하는 제로샷(Zero-shot) 성능을 보여주며, 일반적인 거대 언어 모델(LLM)보다 월등히 높은 정확도를 기록했습니다. - 소량의 데이터만으로 새로운 작업에 적응하는 퓨샷(Few-shot) 학습 능력이 뛰어나, 개인별로 다른 활동 패턴이나 특수한 건강 상태에도 유연하게 대응할 수 있습니다. - 텍스트로 특정 센서 패턴을 찾거나 반대로 센서 데이터를 통해 자연어 설명을 추출하는 '교차 모달 검색' 기능을 통해 전문가의 데이터 분석 효율성을 극대화했습니다. **고도화된 상황 인식 캡션 생성** - 웨어러블 기기에서 발생하는 복잡한 신호를 입력받아 계층적이고 문맥에 맞는 자연어 설명을 생성하며, 기존 비전담 LLM 대비 사실 관계가 정확하고 일관성 있는 텍스트를 출력합니다. - 단순한 활동 요약을 넘어 센서 신호에 담긴 통계적 추이와 구조적 변화를 인간의 언어로 번역함으로써 사용자가 자신의 건강 데이터를 훨씬 직관적으로 이해할 수 있도록 돕습니다. SensorLM은 단순히 수치를 기록하는 기기를 넘어 사용자의 상태를 이해하고 설명해 주는 지능형 건강 비서로의 진화를 예고합니다. 이러한 기술은 향후 전문가 수준의 건강 분석 도구나 개인 맞춤형 웰니스 서비스에 핵심 기술로 활용될 것으로 기대됩니다.

multimodal-ai ai foundation-models wearable-technology+5

google

M-REGLE과 멀티 (새 탭에서 열림)

Google Research에서 발표한 M-REGLE(Multimodal REpresentation learning for Genetic discovery on Low-dimensional Embeddings)은 심전도(ECG)와 광혈류측정(PPG) 등 다양한 건강 데이터를 통합 분석하여 질병의 유전적 원인을 밝혀내는 인공지능 프레임워크입니다. 이 모델은 여러 데이터 스트림을 결합해 하나의 잠재적 '서명'을 학습함으로써 기존 단일 모달리티 분석보다 더 풍부한 생물학적 신호를 포착하고 데이터 노이즈를 효과적으로 줄입니다. 결과적으로 M-REGLE은 유전적 연관성 발견 효율을 극대화하고 심혈관 질환 예측 성능을 획기적으로 향상시켰습니다. ### M-REGLE의 작동 원리와 다중 모달리티 통합 * **통합 학습 구조**: 기존의 U-REGLE이 각 데이터를 개별적으로 분석한 것과 달리, M-REGLE은 12유도 ECG의 각 리드나 ECG와 PPG 데이터를 분석 전 단계에서 결합하여 공동 학습합니다. * **CVAE 및 PCA 활용**: 합성곱 변이형 오토인코더(CVAE)를 사용하여 복잡한 파형 데이터를 저차원의 잠재 인자(latent factors)로 압축하며, 이후 주성분 분석(PCA)을 적용해 각 인자 간의 독립성을 확보합니다. * **GWAS 연계**: 추출된 독립적 인자들을 전장 유전체 연관 분석(GWAS)과 결합하여, 특정 생리적 신호와 연관된 유전적 변이를 통계적으로 정밀하게 찾아냅니다. ### 데이터 표현력 및 해석 가능성 강화 * **재구성 오류 감소**: M-REGLE은 단일 모달리티 모델 대비 데이터 재구성 오류를 대폭 줄였으며, 특히 12유도 ECG 분석에서 오류를 약 72.5% 감소시켜 원본 파형의 핵심 정보를 더 정확하게 보존함을 입증했습니다. * **잠재 임베딩의 시각화**: 생성형 AI의 특성을 활용해 특정 임베딩 좌표를 변경할 때 재구성되는 파형(예: T파의 변화, 심박수 등)이 어떻게 변하는지 확인하여 모델의 판단 근거를 시각적으로 해석할 수 있습니다. * **질병 식별 지표**: 심방세동(AFib) 환자와 정상인을 구분하는 데 결정적인 역할을 하는 특정 임베딩 좌표(4번, 6번, 10번 등)를 식별하여 임상적 유용성을 더했습니다. ### 유전적 발견 성과 및 질병 예측 성능 * **발견 효율 극대화**: M-REGLE은 ECG와 PPG 통합 분석을 통해 총 773개의 고유한 유전적 위치(loci)를 발견했습니다. 이는 단일 유도 ECG 분석보다 4.3배, 개별 분석 후 통합하는 방식(U-REGLE)보다 2.6배 더 많은 수치입니다. * **다유전자 위험 점수(PRS) 개선**: M-REGLE을 통해 도출된 유전적 지표는 기존의 전문가 설계 특징(심박수 등)이나 단일 모달리티 모델보다 질병 예측 성능이 뛰어났습니다. * **임상적 검증**: UK 바이오뱅크 데이터를 활용한 검증 결과, 심방세동 및 심부전과 같은 주요 심혈관 질환의 발병 위험을 예측하는 데 있어 가장 높은 정확도를 기록했습니다. --- M-REGLE은 스마트워치와 같은 웨어러블 기기에서 생성되는 PPG 데이터와 병원의 전문적인 ECG 데이터를 결합함으로써, 일상과 임상을 잇는 강력한 질병 예측 도구가 될 수 있습니다. 향후 다양한 장기 시스템의 멀티모달 데이터에 이 방식을 적용한다면, 복합 질환의 유전적 메커니즘을 규명하고 환자 맞춤형 정밀 의료를 실현하는 데 핵심적인 역할을 할 것으로 기대됩니다.

multimodal-ai ai deep-learning genomics+5

google

Google I/O (새 탭에서 열림)

Google Research는 Google I/O 2025를 통해 수년간의 연구 성과가 실제 서비스와 제품으로 구현되는 과정을 공유하며, AI 기술이 일상과 산업 전반에 미치는 실질적인 영향을 강조했습니다. 이번 발표의 핵심은 의료, 교육, 온디바이스 AI 분야에서 Gemini 모델의 역량을 극대화하고, 모델의 효율성과 다국어 지원 능력을 획기적으로 개선하여 기술 민주화를 실현하는 데 있습니다. **MedGemma와 AMIE를 통한 의료 서비스의 진화** * **MedGemma 출시:** Gemma 3를 기반으로 한 의료 특화 오픈 모델로, 4B 및 27B 텍스트 전용 모델이 공개되었습니다. 방사선 이미지 분석 및 임상 데이터 요약에 최적화된 멀티모달 능력을 갖추고 있습니다. * **성능 및 효율성:** 소형 모델임에도 불구하고 MedQA 벤치마크에서 대형 모델과 대등한 임상 지식 및 추론 성능을 보여주며, 로컬 환경이나 Google Cloud Platform에서 유연하게 구동 가능합니다. * **AMIE의 발전:** 의료 진단 대화를 위한 연구용 AI 에이전트 AMIE에 시각 지능(Vision)이 추가되어, 의료 영상을 함께 해석하며 더욱 정확한 진단을 돕는 멀티모달 추론이 가능해졌습니다. **교육 특화 모델 LearnLM과 Gemini 2.5의 결합** * **Gemini 2.5 통합:** 교육 전문가들과 협업하여 미세 조정된 LearnLM 모델이 Gemini 2.5에 직접 통합되었습니다. 이는 학습 과학 원리를 적용하여 STEM 추론 및 퀴즈 생성 능력을 강화한 결과입니다. * **개인 맞춤형 학습 경험:** 사용자의 수업 노트나 문서를 바탕으로 맞춤형 퀴즈를 생성하고 정오답에 대한 구체적인 피드백을 제공하는 새로운 퀴즈 기능을 선보였습니다. * **글로벌 교육 현장 적용:** 가나의 고등학교 등에서 단문 및 장문 콘텐츠의 자동 평가 시스템을 시범 운영하며, 교육 기술의 확장성을 검증하고 있습니다. **다국어 지원 및 온디바이스 AI를 위한 Gemma의 혁신** * **Gemma 3의 다국어 확장:** 140개 이상의 언어를 지원하여 전 세계 사용자들이 언어 장벽 없이 LLM을 활용할 수 있도록 개선되었습니다. * **온디바이스 최적화 모델 Gemma 3n:** 단 2GB의 RAM에서도 구동 가능한 초경량 모델로, 모바일 기기에서의 대기 시간을 줄이고 에너지 소비 효율을 극대화했습니다. * **평가 지표 도입:** 모델의 교차 언어 지식 전달 능력을 정교하게 측정하기 위한 새로운 벤치마크인 'ECLeKTic'을 도입하여 기술적 신뢰도를 높였습니다. **모델 효율성 및 검색 정확도 향상** * **추론 최적화 기술:** 추측성 디코딩(Speculative decoding)과 캐스케이드(Cascades) 기술을 통해 품질 저하 없이 모델의 응답 속도와 효율성을 업계 표준 수준으로 끌어올렸습니다. * **사실성 강화:** 검색 엔진의 AI 모드 등에 적용되는 모델의 사실적 일관성을 높이기 위해 접지(Grounding) 연구를 지속하며 LLM의 신뢰성을 보장하고 있습니다. 개발자와 연구자들은 HuggingFace나 Vertex AI를 통해 공개된 MedGemma와 Gemma 3n 모델을 즉시 활용해 볼 수 있습니다. 특히 특정 산업군(의료, 교육)에 특화된 애플리케이션을 구축할 때, 성능과 효율성 사이의 균형이 검증된 이번 오픈 모델들을 베이스라인으로 활용하는 것을 추천합니다.

multimodal-ai ai gen-ai gemini+5