litert

3 개의 포스트

메신저용 온디바이스 이미지 모델 학습기 1편: 지식 증류로 확장한 다국어 이미지 검색 (새 탭에서 열림)

메신저 환경 내 사용자 경험을 개선하기 위해 네트워크 연결 없이 모바일 기기 내부에서 작동하는 온디바이스 이미지 이해 모델을 개발했습니다. 거대 모델의 정교한 표현력을 작은 모델에 전수하는 '지식 증류(Knowledge Distillation)' 기법을 핵심 전략으로 사용하여, 기존 영어 전용 모델을 한국어를 포함한 5개 국어 지원 모델로 확장하면서도 성능과 효율성을 동시에 확보했습니다. 이를 통해 모바일 기기의 제한된 자원 속에서도 높은 정확도의 다국어 이미지 검색 기능을 성공적으로 구현하는 성과를 거두었습니다. ### 온디바이스 이미지 이해의 필요성과 제약 조건 * 메신저 내 이미지 검색 기능을 키워드 매칭 방식에서 의미 기반(Semantic) 검색으로 고도화하고, 알림 시 이미지 내용을 요약해 주는 등 사용자 경험을 개선하고자 했습니다. * 지연 시간(Latency) 최소화, 개인 사진에 대한 프라이버시 보호, 오프라인 환경 지원을 위해 서버가 아닌 온디바이스 처리가 필수적이었습니다. * 앱 다운로드 부담을 줄이기 위해 모델 크기를 200MB 이하로 최적화해야 했으며, Android와 iOS 모두에서 수백 ms 이내의 빠른 응답 속도와 호환성을 보장해야 했습니다. ### 지식 증류를 통한 다국어 텍스트 인코더 확장 * 기존의 번역 파이프라인 방식은 번역 오류로 인한 품질 저하와 추가적인 지연 시간 문제가 있어, 지식 증류를 통해 다국어를 임베딩 공간에 직접 정렬하는 방식을 채택했습니다. * 이미 검증된 영어 텍스트 인코더를 교사(Teacher) 모델로 고정하고, 다국어 입력을 받는 학생(Student) 모델이 교사의 임베딩 공간을 복제하도록 MSE(평균 제곱 오차) 손실 함수를 사용해 학습시켰습니다. * 이미지 인코더를 재학습하지 않고 텍스트 인코더만 정렬함으로써, 기존 모델이 가진 강력한 이미지-텍스트 정렬 성능을 다국어 환경에서도 그대로 유지하며 효율적으로 확장했습니다. ### 다국어 검색 성능 및 기술적 구현 성과 * 지식 증류 결과, 다국어 Recall@5 지표가 기존 10% 미만에서 평균 78% 이상으로 약 7배 향상되어 실제 서비스에 적용 가능한 수준의 성능을 확보했습니다. * Android와 iOS 통합 지원을 위해 표준 런타임인 LiteRT를 선택했으며, PyTorch 모델 변환 과정에서 호환되지 않는 연산자(erf 등)를 의사 연산자로 대체 구현하여 최적화했습니다. * 언어별 데이터 불균형을 해소하기 위한 샘플링 전략과 모바일 환경에 맞춘 토큰화기(Tokenizer) 규약을 수립하여 실무적인 배포 완성도를 높였습니다. 이 프로젝트는 온디바이스라는 제약 조건 속에서 지식 증류라는 효율적인 학습 전략을 통해 다국어 지원 문제를 성공적으로 해결했습니다. 특히 영어 모델의 성능 손실을 최소화하면서도 한국어, 일본어 등 주요 언어의 검색 품질을 획기적으로 끌어올린 과정은, 리소스가 제한된 모바일 환경에서 AI 모델을 배포하고자 하는 개발자들에게 유용한 기술적 이정표가 될 것입니다.

XR Blocks: AI + XR 혁신 (새 탭에서 열림)

Google XR 팀이 공개한 **XR Blocks**는 인공지능(AI)과 확장 현실(XR) 기술의 결합을 가속화하기 위한 오픈 소스 프레임워크로, 몰입형 지능형 컴퓨팅 환경을 구축하는 데 따르는 기술적 장벽을 낮추기 위해 설계되었습니다. 기존의 XR 개발이 인지, 렌더링, 상호작용 시스템을 수동으로 통합해야 하는 고마찰 과정이었다면, XR Blocks는 이를 모듈화된 '플러그 앤 플레이' 방식으로 전환하여 창작자가 복잡한 하위 시스템 구현 대신 사용자 경험 설계에 집중할 수 있게 합니다. 이 프레임워크는 WebXR, three.js, LiteRT, Gemini 등 접근성 높은 기술을 기반으로 하며, 데스크톱 시뮬레이터와 Android XR 기기 모두에서 작동하는 범용성을 갖추고 있습니다. **창작자 중심의 설계 원칙** * **단순성과 가독성:** Python의 철학(Zen of Python)에서 영감을 받아, 개발자의 스크립트가 마치 고수준의 경험을 묘사하는 문장처럼 읽힐 수 있도록 깨끗하고 직관적인 추상화를 제공합니다. * **창작자 경험 우선:** 센서 데이터 융합이나 AI 모델 통합과 같은 복잡한 '하위 배관 작업'에 시간을 허비하지 않고, 지능적이고 인지적인 XR 애플리케이션의 핵심 로직 개발에만 몰입할 수 있는 환경을 조성합니다. * **실용적 유연성:** 기술의 빠른 변화에 대응하기 위해 완벽한 단일 체계를 지향하기보다, 모듈화되고 적응력 높은 아키텍처를 채택하여 다양한 기기와 환경에서 유연하게 작동하도록 했습니다. **리얼리티 모델과 추상화 계층** * **Script와 실행의 분리:** 상호작용의 내용(What)을 정의하는 'Script'와 이를 저수준에서 구현하는 방식(How)을 분리하여 시스템의 복잡도를 관리합니다. * **사용자 및 물리 세계 인지:** 손의 움직임, 시선(Gaze), 아바타와 같은 사용자 요소와 깊이 맵(Depth), 조명 추정, 객체 인식 등 물리적 환경 정보를 손쉽게 쿼리하고 활용할 수 있습니다. * **AI 및 지능형 에이전트 통합:** 가상 인터페이스(UI)뿐만 아니라 맥락을 이해하고 능동적으로 제안을 수행하는 'Sensible Agent'와 같은 AI 기능을 프레임워크 내에서 직접 구현할 수 있습니다. **실제 적용 사례 및 가치** * **XR 리얼리티 가속화:** 깊이 인식과 물리 기반 상호작용을 시뮬레이션 환경에서 프로토타이핑하고, 동일한 코드를 실제 XR 기기에 즉시 배포하여 개발 사이클을 단축할 수 있습니다. * **맞춤형 상호작용 설계:** 사용자 정의 제스처 모델을 데스크톱 시뮬레이터와 온디바이스 XR 환경에 원활하게 통합하여 독창적인 인터랙션을 실험할 수 있습니다. 이 프레임워크는 아이디어를 인터랙티브한 프로토타입으로 빠르게 전환하고자 하는 개발자와 연구자들에게 강력한 도구가 될 것입니다. 특히 웹 기반 기술을 활용하므로 높은 접근성을 제공하며, Android XR 생태계와의 호환성을 통해 차세대 AI+XR 애플리케이션 개발의 표준적인 출발점을 제시합니다.

Snapseed의 대화형 온 (새 탭에서 열림)

Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.