Snapseed의 인터 (새 탭에서 열림)
Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.