3d-reconstruction

2 개의 포스트

AI가 생성한 합성 뉴런으로 뇌 지도 제작 가속화 (새 탭에서 열림)

Google Research는 뇌의 복잡한 연결망을 재구성하는 커넥토믹스(Connectomics) 분야의 효율을 높이기 위해 합성 뉴런 형태를 생성하는 AI 모델 'MoGen'을 개발했습니다. MoGen이 생성한 합성 데이터를 기존 재구성 모델인 PATHFINDER의 학습에 활용한 결과, 재구성 오류를 4.4% 줄였으며 이는 생쥐 뇌 전체 지도를 제작할 때 약 157년의 수동 검토 시간을 절약할 수 있는 획기적인 성과입니다. 이번 연구는 현대적인 생성형 AI 기법을 활용해 대규모 뇌 지도 제작의 최대 병목 구간인 인적 검증 과정을 크게 단축할 수 있음을 입증했습니다. **커넥토믹스의 거대한 규모와 수동 검증의 한계** * 커넥토믹스는 뇌세포인 뉴런을 재구성하여 뇌의 배선도를 만드는 분야로, 최근 초파리 뇌 전체 지도를 완성했으나 생쥐나 인간의 뇌는 그보다 수천 배 더 커서 현재 기술로는 한계가 있습니다. * 현미경 영상을 3D 뉴런 형상으로 변환하는 과정에서 AI가 사용되지만, 최종 결과물에 대한 전문가의 수동 검토(Proofreading) 단계가 여전히 가장 많은 시간을 소요하는 병목 현상으로 작용합니다. * 뉴런은 가늘고 긴 축삭(Axon)과 복잡하게 가지를 친 수지상 돌기(Dendrite) 등 매우 불규칙하고 복잡한 기하학적 구조를 가지고 있어 AI가 이를 정확히 파악하는 데 어려움을 겪습니다. **MoGen: 포인트 클라우드 기반의 뉴런 형태 생성** * 연구진은 'PointInfinity' 포인트 클라우드 흐름 매칭(flow matching) 모델을 기반으로 한 MoGen(Neuronal Morphology Generation)을 개발했습니다. * 이 모델은 무작위적인 3D 점들의 집합(포인트 클라우드)을 점진적으로 변형시켜 실제 뉴런과 흡사한 3D 형상을 생성합니다. * 검증된 생쥐 대뇌 피질의 축삭 데이터를 학습한 MoGen은 실제 뉴런의 구부러짐, 뒤틀림, 가지치기 등의 특성을 완벽하게 재현하며, 인간 전문가조차 실제와 합성 데이터를 구별하지 못할 정도의 정교함을 보여주었습니다. **재구성 모델 PATHFINDER의 성능 최적화** * 뉴런 재구성 모델인 PATHFINDER를 학습시킬 때 MoGen이 생성한 수백만 개의 합성 데이터를 10% 비중으로 포함했습니다. * 그 결과, 서로 다른 뉴런이 하나로 합쳐지는 '병합 오류(Merge error)'를 중심으로 전체 오류율이 4.4% 감소하는 성과를 거두었습니다. * 단순한 수치처럼 보일 수 있으나, 생쥐 뇌 전체 규모로 환산하면 전문가 한 명이 157년 동안 작업해야 하는 분량의 수동 수정을 대체할 수 있는 경제적 효과를 가집니다. **오픈 소스화 및 향후 확장 계획** * Google Research는 MoGen 모델과 종별로 학습된 모델들을 오픈 소스로 공개하여 커뮤니티의 연구를 지원하고 있습니다. * 향후에는 특정 뉴런 유형(길이, 분기 수 등)을 조절하여 생성하거나, 재구성 오류가 자주 발생하는 특정 기하학적 구조를 집중적으로 학습시켜 모델을 고도화할 계획입니다. * 생쥐 외에도 금화조, 초파리 등 다양한 종의 뉴런 생성 모델을 개발 중이며, 합성 뉴런을 활용해 전자현미경 이미지를 생성하는 방식 등 공정 전반에 걸친 데이터 증강을 모색하고 있습니다. 이 기술은 향후 생쥐 뇌 전체 지도 제작과 같은 거대 프로젝트를 수행하는 데 필수적인 기반 도구가 될 것으로 보이며, 연구자들은 MoGen을 통해 확보한 데이터로 뇌 과학 연구의 속도를 한층 더 높일 수 있을 것입니다.

생성형 AI로 (새 탭에서 열림)

구글은 단 몇 장의 2D 제품 사진만으로 몰입감 있는 3D 쇼핑 경험을 구현하는 최신 생성형 AI 기술을 공개했습니다. 이 기술은 초기 NeRF 모델에서 시작해 시점 조건부 확산 모델을 거쳐, 현재는 고도화된 비디오 생성 모델인 'Veo'를 활용하는 단계까지 발전했습니다. 이를 통해 기업들은 적은 비용과 시간으로도 가구, 의류, 전자제품 등 다양한 카테고리의 제품을 360도 인터뷰 뷰로 변환하여 소비자에게 실제 매장에서 물건을 살펴보는 듯한 경험을 제공할 수 있게 되었습니다. ## 1세대: 신경 방사 휘도장(NeRF)을 이용한 초기 모델 * **핵심 기술:** 2022년 구글은 NeRF(Neural Radiance Fields)를 활용해 5장 이상의 이미지로부터 360도 회전 뷰를 생성하는 기술을 선보였습니다. * **구현 과정:** 가장 정보가 많은 이미지를 선택하고 배경을 제거한 뒤, NOCS(XYZ 예측)와 CamP(카메라 최적화) 등을 결합하여 제품의 3D 표현력을 학습시켰습니다. * **한계점:** 신발과 같이 비교적 단순한 구조에는 효과적이었으나, 샌들이나 하이힐처럼 구조가 얇고 복잡한 제품은 소수의 이미지로 정확한 기하학적 구조를 재구성하는 데 어려움이 있었습니다. ## 2세대: 시점 조건부 확산 모델을 통한 확장 * **시점 예측:** 특정 각도의 사진(예: 신발 윗면)만 있어도 "다른 각도에서는 어떻게 보일까?"를 예측하는 시점 조건부(View-conditioned) 확산 모델을 도입했습니다. * **기술적 특징:** 'DreamFusion'에서 제안된 점수 증류 샘플링(SDS) 기법을 사용하여, 모델이 렌더링한 이미지와 확산 모델이 생성한 목표 이미지를 비교하며 3D 모델의 매개변수를 최적화했습니다. * **성과:** 이 방식은 복잡한 구조의 신발 카테고리에서도 높은 현실감을 구현해냈으며, 구글 쇼핑에서 제공되는 대다수의 360도 신발 시각화 기능의 기반이 되었습니다. ## 3세대: Veo 모델을 활용한 범용적 3D 생성 * **비디오 생성 기술의 응용:** 구글의 최첨단 비디오 생성 모델인 'Veo'를 기반으로 하며, 빛의 상호작용, 재질, 질감 및 복잡한 기하학적 구조를 탁월하게 포착합니다. * **학습 방식:** 수백만 개의 고품질 3D 합성 자산을 다양한 조명과 각도에서 렌더링한 데이터를 학습하여, 하나 이상의 이미지 조건에서 360도 회전 영상을 생성하도록 미세 조정(Fine-tuning)되었습니다. * **범용성 및 효율성:** 정밀한 카메라 위치 추정 과정이 필요 없어 모델이 더 단순하고 신뢰도가 높으며, 가구와 전자제품처럼 표면이 반사되거나 복잡한 제품군에서도 자연스러운 3D 뷰를 생성합니다. * **입력 데이터:** 단 한 장의 사진으로도 생성이 가능하지만, 가려진 부분에 대한 '환각(Hallucination)' 현상을 줄이고 고화질 결과물을 얻기 위해서는 제품의 전체 면을 포괄하는 최소 3장의 이미지가 권장됩니다. 이러한 기술적 진보는 온라인 쇼핑의 시각적 한계를 극복하고 소비자에게 더 구체적인 정보를 제공하는 데 기여하고 있습니다. 향후 비즈니스 운영자들은 제품의 앞면, 뒷면, 측면을 포함한 최소 3장의 고화질 사진을 확보함으로써 AI를 통한 고품질의 3D 쇼핑 콘텐츠를 손쉽게 구축할 수 있을 것으로 보입니다.