mediapipe | Techlist.io

Snapseed의 대화형 온 (새 탭에서 열림)

Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.

mediapipe ai machine-learning computer-vision+5

google

거대 모델에서 모바일의 마 (새 탭에서 열림)

YouTube는 지식 증류(Knowledge Distillation) 기술과 MediaPipe를 이용한 온디바이스 최적화 아키텍처를 통해 대규모 생성형 AI 모델을 모바일 환경에서 실시간으로 구현했습니다. 이 시스템은 거대 모델의 성능을 소형화된 학생 모델에 전이함으로써 사용자 정체성을 유지하면서도 초당 30프레임 이상의 속도로 카툰 스타일 변환 등의 복잡한 효과를 제공합니다. 결과적으로 유튜브 쇼츠 사용자들은 고성능 GPU 서버 없이도 자신의 기기에서 즉각적이고 고품질의 AI 효과를 경험할 수 있게 되었습니다. ### 고품질 데이터와 지식 증류 아키텍처 * **다양성을 고려한 데이터 구축**: 성별, 연령, 피부색(Monk Skin Tone Scale 기준) 등이 균형 있게 분포된 라이선스 기반 얼굴 데이터셋을 사용하여 모든 사용자에게 일관된 품질의 효과를 제공합니다. * **교사-학생(Teacher-Student) 모델**: StyleGAN2 또는 Google DeepMind의 Imagen과 같은 강력한 '교사 모델'이 시각적 효과를 생성하면, UNet 기반의 가벼운 '학생 모델'이 이를 학습합니다. * **모바일 최적화 백본**: 학생 모델은 모바일 기기에 최적화된 MobileNet 백본을 인코더와 디코더에 사용하여 연산 부담을 최소화하면서도 이미지 변환 효율을 높였습니다. ### 반복적 증류 프로세스와 최적화 * **데이터 생성 및 증강**: 교사 모델을 통해 수만 쌍의 '변환 전후' 이미지 쌍을 생성하며, 이때 AR 안경, 합성된 손에 의한 가려짐(occlusion) 등 다양한 증강 기법을 적용해 실제 촬영 환경에 대비합니다. * **복합 손실 함수 활용**: 학생 모델 학습 시 단순 수치적 정확도를 넘어 시각적 사실감을 높이기 위해 L1, LPIPS, 적응형(Adaptive) 및 적대적(Adversarial) 손실 함수를 조합하여 사용합니다. * **신경망 구조 탐색(NAS)**: 뉴럴 아키텍처 서치 기술을 통해 모델의 깊이와 너비를 조정하며 각 효과에 가장 최적화된 효율적인 구조를 자동으로 찾아냅니다. ### 사용자 정체성 보존을 위한 PTI 기술 * **인버전 문제(Inversion Problem) 해결**: 생성 모델이 이미지를 잠재 공간(Latent Space)으로 변환할 때 사용자 고유의 이목구비나 피부색이 왜곡되는 문제를 해결하기 위해 PTI(Pivotal Tuning Inversion)를 도입했습니다. * **개별 특성 학습**: 원본 이미지의 특징을 정확히 표현할 수 있도록 모델의 가중치를 미세 조정하여, 효과가 적용된 후에도 사용자가 누구인지 명확히 인식할 수 있도록 정체성을 유지합니다. * **일관성 유지**: 단순한 필터 적용이 아니라 프레임별로 정체성을 보존하며 전체적인 스타일을 재구성하여 자연스러운 변환 결과를 도출합니다. ### MediaPipe를 통한 실시간 온디바이스 실행 * **크로스 플랫폼 최적화**: Google의 MediaPipe 프레임워크를 활용하여 Android와 iOS 모두에서 동일하게 고성능 그래프 시뮬레이션을 실행합니다. * **하드웨어 가속**: TFLite와 GPU 가속(Vulkan, OpenGL, Metal)을 통해 모바일 기기의 하드웨어 성능을 극한으로 끌어올려 실시간 카메라 스트림 처리를 지원합니다. * **효율적인 파이프라인**: 입력 영상의 전처리부터 모델 추론, 최종 렌더링까지 이어지는 전체 공정을 모바일 GPU 내에서 완결하여 지연 시간을 최소화했습니다. 이 기술적 성과는 복잡한 생성형 AI를 클라우드 서버 없이 모바일 기기 자체에서 구동할 수 있음을 증명합니다. 개발자들은 MediaPipe와 같은 오픈소스 도구를 활용하여 유사한 온디바이스 AI 기능을 설계할 수 있으며, 특히 사용자 개인정보 보호와 실시간 응답성이 중요한 서비스에서 지식 증류와 PTI 기술은 핵심적인 해결책이 될 것입니다.

mediapipe ai gen-ai computer-vision+5