on-device-ai

2 개의 포스트

Snapseed의 인터 (새 탭에서 열림)

Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.

Google I/O (새 탭에서 열림)

Google Research는 Google I/O 2025를 통해 수년간의 연구 성과가 실제 서비스와 제품으로 구현되는 과정을 공유하며, AI 기술이 일상과 산업 전반에 미치는 실질적인 영향을 강조했습니다. 이번 발표의 핵심은 의료, 교육, 온디바이스 AI 분야에서 Gemini 모델의 역량을 극대화하고, 모델의 효율성과 다국어 지원 능력을 획기적으로 개선하여 기술 민주화를 실현하는 데 있습니다. **MedGemma와 AMIE를 통한 의료 서비스의 진화** * **MedGemma 출시:** Gemma 3를 기반으로 한 의료 특화 오픈 모델로, 4B 및 27B 텍스트 전용 모델이 공개되었습니다. 방사선 이미지 분석 및 임상 데이터 요약에 최적화된 멀티모달 능력을 갖추고 있습니다. * **성능 및 효율성:** 소형 모델임에도 불구하고 MedQA 벤치마크에서 대형 모델과 대등한 임상 지식 및 추론 성능을 보여주며, 로컬 환경이나 Google Cloud Platform에서 유연하게 구동 가능합니다. * **AMIE의 발전:** 의료 진단 대화를 위한 연구용 AI 에이전트 AMIE에 시각 지능(Vision)이 추가되어, 의료 영상을 함께 해석하며 더욱 정확한 진단을 돕는 멀티모달 추론이 가능해졌습니다. **교육 특화 모델 LearnLM과 Gemini 2.5의 결합** * **Gemini 2.5 통합:** 교육 전문가들과 협업하여 미세 조정된 LearnLM 모델이 Gemini 2.5에 직접 통합되었습니다. 이는 학습 과학 원리를 적용하여 STEM 추론 및 퀴즈 생성 능력을 강화한 결과입니다. * **개인 맞춤형 학습 경험:** 사용자의 수업 노트나 문서를 바탕으로 맞춤형 퀴즈를 생성하고 정오답에 대한 구체적인 피드백을 제공하는 새로운 퀴즈 기능을 선보였습니다. * **글로벌 교육 현장 적용:** 가나의 고등학교 등에서 단문 및 장문 콘텐츠의 자동 평가 시스템을 시범 운영하며, 교육 기술의 확장성을 검증하고 있습니다. **다국어 지원 및 온디바이스 AI를 위한 Gemma의 혁신** * **Gemma 3의 다국어 확장:** 140개 이상의 언어를 지원하여 전 세계 사용자들이 언어 장벽 없이 LLM을 활용할 수 있도록 개선되었습니다. * **온디바이스 최적화 모델 Gemma 3n:** 단 2GB의 RAM에서도 구동 가능한 초경량 모델로, 모바일 기기에서의 대기 시간을 줄이고 에너지 소비 효율을 극대화했습니다. * **평가 지표 도입:** 모델의 교차 언어 지식 전달 능력을 정교하게 측정하기 위한 새로운 벤치마크인 'ECLeKTic'을 도입하여 기술적 신뢰도를 높였습니다. **모델 효율성 및 검색 정확도 향상** * **추론 최적화 기술:** 추측성 디코딩(Speculative decoding)과 캐스케이드(Cascades) 기술을 통해 품질 저하 없이 모델의 응답 속도와 효율성을 업계 표준 수준으로 끌어올렸습니다. * **사실성 강화:** 검색 엔진의 AI 모드 등에 적용되는 모델의 사실적 일관성을 높이기 위해 접지(Grounding) 연구를 지속하며 LLM의 신뢰성을 보장하고 있습니다. 개발자와 연구자들은 HuggingFace나 Vertex AI를 통해 공개된 MedGemma와 Gemma 3n 모델을 즉시 활용해 볼 수 있습니다. 특히 특정 산업군(의료, 교육)에 특화된 애플리케이션을 구축할 때, 성능과 효율성 사이의 균형이 검증된 이번 오픈 모델들을 베이스라인으로 활용하는 것을 추천합니다.