veo | Techlist.io

생성형 AI로 (새 탭에서 열림)

구글은 단 몇 장의 2D 제품 사진만으로 몰입감 있는 3D 쇼핑 경험을 구현하는 최신 생성형 AI 기술을 공개했습니다. 이 기술은 초기 NeRF 모델에서 시작해 시점 조건부 확산 모델을 거쳐, 현재는 고도화된 비디오 생성 모델인 'Veo'를 활용하는 단계까지 발전했습니다. 이를 통해 기업들은 적은 비용과 시간으로도 가구, 의류, 전자제품 등 다양한 카테고리의 제품을 360도 인터뷰 뷰로 변환하여 소비자에게 실제 매장에서 물건을 살펴보는 듯한 경험을 제공할 수 있게 되었습니다. ## 1세대: 신경 방사 휘도장(NeRF)을 이용한 초기 모델 * **핵심 기술:** 2022년 구글은 NeRF(Neural Radiance Fields)를 활용해 5장 이상의 이미지로부터 360도 회전 뷰를 생성하는 기술을 선보였습니다. * **구현 과정:** 가장 정보가 많은 이미지를 선택하고 배경을 제거한 뒤, NOCS(XYZ 예측)와 CamP(카메라 최적화) 등을 결합하여 제품의 3D 표현력을 학습시켰습니다. * **한계점:** 신발과 같이 비교적 단순한 구조에는 효과적이었으나, 샌들이나 하이힐처럼 구조가 얇고 복잡한 제품은 소수의 이미지로 정확한 기하학적 구조를 재구성하는 데 어려움이 있었습니다. ## 2세대: 시점 조건부 확산 모델을 통한 확장 * **시점 예측:** 특정 각도의 사진(예: 신발 윗면)만 있어도 "다른 각도에서는 어떻게 보일까?"를 예측하는 시점 조건부(View-conditioned) 확산 모델을 도입했습니다. * **기술적 특징:** 'DreamFusion'에서 제안된 점수 증류 샘플링(SDS) 기법을 사용하여, 모델이 렌더링한 이미지와 확산 모델이 생성한 목표 이미지를 비교하며 3D 모델의 매개변수를 최적화했습니다. * **성과:** 이 방식은 복잡한 구조의 신발 카테고리에서도 높은 현실감을 구현해냈으며, 구글 쇼핑에서 제공되는 대다수의 360도 신발 시각화 기능의 기반이 되었습니다. ## 3세대: Veo 모델을 활용한 범용적 3D 생성 * **비디오 생성 기술의 응용:** 구글의 최첨단 비디오 생성 모델인 'Veo'를 기반으로 하며, 빛의 상호작용, 재질, 질감 및 복잡한 기하학적 구조를 탁월하게 포착합니다. * **학습 방식:** 수백만 개의 고품질 3D 합성 자산을 다양한 조명과 각도에서 렌더링한 데이터를 학습하여, 하나 이상의 이미지 조건에서 360도 회전 영상을 생성하도록 미세 조정(Fine-tuning)되었습니다. * **범용성 및 효율성:** 정밀한 카메라 위치 추정 과정이 필요 없어 모델이 더 단순하고 신뢰도가 높으며, 가구와 전자제품처럼 표면이 반사되거나 복잡한 제품군에서도 자연스러운 3D 뷰를 생성합니다. * **입력 데이터:** 단 한 장의 사진으로도 생성이 가능하지만, 가려진 부분에 대한 '환각(Hallucination)' 현상을 줄이고 고화질 결과물을 얻기 위해서는 제품의 전체 면을 포괄하는 최소 3장의 이미지가 권장됩니다. 이러한 기술적 진보는 온라인 쇼핑의 시각적 한계를 극복하고 소비자에게 더 구체적인 정보를 제공하는 데 기여하고 있습니다. 향후 비즈니스 운영자들은 제품의 앞면, 뒷면, 측면을 포함한 최소 3장의 고화질 사진을 확보함으로써 AI를 통한 고품질의 3D 쇼핑 콘텐츠를 손쉽게 구축할 수 있을 것으로 보입니다.

veo gen-ai diffusion-models neural-radiance-fields+3