neural-architecture-search

1 개의 포스트

거대 모델에서 모바일의 마 (새 탭에서 열림)

YouTube는 지식 증류(Knowledge Distillation) 기술과 MediaPipe를 이용한 온디바이스 최적화 아키텍처를 통해 대규모 생성형 AI 모델을 모바일 환경에서 실시간으로 구현했습니다. 이 시스템은 거대 모델의 성능을 소형화된 학생 모델에 전이함으로써 사용자 정체성을 유지하면서도 초당 30프레임 이상의 속도로 카툰 스타일 변환 등의 복잡한 효과를 제공합니다. 결과적으로 유튜브 쇼츠 사용자들은 고성능 GPU 서버 없이도 자신의 기기에서 즉각적이고 고품질의 AI 효과를 경험할 수 있게 되었습니다. ### 고품질 데이터와 지식 증류 아키텍처 * **다양성을 고려한 데이터 구축**: 성별, 연령, 피부색(Monk Skin Tone Scale 기준) 등이 균형 있게 분포된 라이선스 기반 얼굴 데이터셋을 사용하여 모든 사용자에게 일관된 품질의 효과를 제공합니다. * **교사-학생(Teacher-Student) 모델**: StyleGAN2 또는 Google DeepMind의 Imagen과 같은 강력한 '교사 모델'이 시각적 효과를 생성하면, UNet 기반의 가벼운 '학생 모델'이 이를 학습합니다. * **모바일 최적화 백본**: 학생 모델은 모바일 기기에 최적화된 MobileNet 백본을 인코더와 디코더에 사용하여 연산 부담을 최소화하면서도 이미지 변환 효율을 높였습니다. ### 반복적 증류 프로세스와 최적화 * **데이터 생성 및 증강**: 교사 모델을 통해 수만 쌍의 '변환 전후' 이미지 쌍을 생성하며, 이때 AR 안경, 합성된 손에 의한 가려짐(occlusion) 등 다양한 증강 기법을 적용해 실제 촬영 환경에 대비합니다. * **복합 손실 함수 활용**: 학생 모델 학습 시 단순 수치적 정확도를 넘어 시각적 사실감을 높이기 위해 L1, LPIPS, 적응형(Adaptive) 및 적대적(Adversarial) 손실 함수를 조합하여 사용합니다. * **신경망 구조 탐색(NAS)**: 뉴럴 아키텍처 서치 기술을 통해 모델의 깊이와 너비를 조정하며 각 효과에 가장 최적화된 효율적인 구조를 자동으로 찾아냅니다. ### 사용자 정체성 보존을 위한 PTI 기술 * **인버전 문제(Inversion Problem) 해결**: 생성 모델이 이미지를 잠재 공간(Latent Space)으로 변환할 때 사용자 고유의 이목구비나 피부색이 왜곡되는 문제를 해결하기 위해 PTI(Pivotal Tuning Inversion)를 도입했습니다. * **개별 특성 학습**: 원본 이미지의 특징을 정확히 표현할 수 있도록 모델의 가중치를 미세 조정하여, 효과가 적용된 후에도 사용자가 누구인지 명확히 인식할 수 있도록 정체성을 유지합니다. * **일관성 유지**: 단순한 필터 적용이 아니라 프레임별로 정체성을 보존하며 전체적인 스타일을 재구성하여 자연스러운 변환 결과를 도출합니다. ### MediaPipe를 통한 실시간 온디바이스 실행 * **크로스 플랫폼 최적화**: Google의 MediaPipe 프레임워크를 활용하여 Android와 iOS 모두에서 동일하게 고성능 그래프 시뮬레이션을 실행합니다. * **하드웨어 가속**: TFLite와 GPU 가속(Vulkan, OpenGL, Metal)을 통해 모바일 기기의 하드웨어 성능을 극한으로 끌어올려 실시간 카메라 스트림 처리를 지원합니다. * **효율적인 파이프라인**: 입력 영상의 전처리부터 모델 추론, 최종 렌더링까지 이어지는 전체 공정을 모바일 GPU 내에서 완결하여 지연 시간을 최소화했습니다. 이 기술적 성과는 복잡한 생성형 AI를 클라우드 서버 없이 모바일 기기 자체에서 구동할 수 있음을 증명합니다. 개발자들은 MediaPipe와 같은 오픈소스 도구를 활용하여 유사한 온디바이스 AI 기능을 설계할 수 있으며, 특히 사용자 개인정보 보호와 실시간 응답성이 중요한 서비스에서 지식 증류와 PTI 기술은 핵심적인 해결책이 될 것입니다.