diffusion-models

5 개의 포스트

오픈소스 AI의 우선순위 (새 탭에서 열림)

현재 인공지능 기술의 경쟁 축은 거대 폐쇄형 모델에서 오픈소스 및 목적 특화형(Fit-for-purpose) 모델로 빠르게 이동하고 있습니다. 핀터레스트(Pinterest)는 오픈소스 모델을 자사 데이터로 미세 조정하여 상용 모델 대비 10% 미만의 비용으로 동등한 성능을 구현해냈으며, 특정 작업에서는 오히려 범용 모델을 능가하는 성과를 거두고 있습니다. 이는 AI 모델 아키텍처가 범용화됨에 따라 기업의 경쟁력이 독자적인 데이터와 제품 통합 능력에서 결정된다는 점을 시사합니다. ### 핀터레스트의 모달리티별 모델 구축 전략 핀터레스트는 서비스의 특성에 따라 '자체 구축(Build)', '구매(Buy)', '조정(Adapt)'의 전략을 차별화하여 적용합니다. * **사용자 추천 시스템(Users):** 수천억 개의 노드로 구성된 이미지-보드-사용자 그래프를 기반으로 PinFM, PinRec과 같은 모델을 자체 구축하여 사용자 행동 시퀀스를 정교하게 학습합니다. * **시각적 이해(Visual):** 시각적 검색 및 컬렉션 데이터를 활용한 대규모 약지도 학습(Weakly-supervised pretraining)을 위해 PinCLIP, Pinterest Canvas 등 독자적인 인코더와 확산 모델을 개발합니다. * **텍스트 및 추론(Text):** 과거에는 외부 상용 모델에 의존했으나, 최근에는 오픈소스 LLM을 핀터레스트의 고유 데이터로 미세 조정하여 사용하는 방식으로 전환하고 있습니다. ### 도메인 특화 데이터 기반의 성능 차별화 모델 아키텍처가 상향 평준화되면서, 특정 도메인에 최적화된 데이터가 모델의 성능을 결정짓는 핵심 요소로 부상했습니다. * 핀터레스트는 자체 시각 데이터를 학습시킨 임베딩 모델(UVE, PinCLIP)을 통해 기성 모델보다 우수한 검색 및 추천 성능을 확보했습니다. * 이미지 생성 모델인 'Pinterest Canvas' 역시 범용 모델보다 핀터레스트의 서비스 환경에 적합한 이미지 편집 및 향상 기능을 제공하도록 튜닝되었습니다. * 이러한 접근법은 과거 AlexNet 시절 아키텍처가 범용화되고 데이터 중심의 최적화가 중요해졌던 머신러닝의 역사적 흐름과 궤를 같이합니다. ### 핀터레스트 어시스턴트(Pinterest Assistant) 사례 최근 출시된 AI 에이전트 서비스는 오픈소스 모델의 효율성을 증명하는 대표적인 사례입니다. * **지능형 라우터 구조:** 에이전트 역할을 하는 LLM이 사용자의 의도를 파악하고, 추천 서비스나 시각 검색 등 핀터레스트 고유의 도구(Tool)를 호출하는 구조를 채택했습니다. * **오픈소스 기반 최적화:** 초기에는 상용 LLM을 사용했으나, 도구 호출(Tool calling)과 쿼리 계획 수립에 특화된 미세 조정을 거친 오픈소스 모델로 교체하여 비용을 획기적으로 절감했습니다. * **성능 유지와 비용 절감:** 오픈소스 모델 도입을 통해 상용 모델 대비 10배 이상의 비용 효율성을 달성하면서도 서비스 품질은 유지하는 성과를 거두었습니다. ### 기술적 통찰과 제언 AI 기술 전략을 수립할 때 더 이상 모델의 크기나 범용적인 벤치마크 점수에만 매몰되어서는 안 됩니다. 기업은 자사가 보유한 고유의 데이터를 가장 효과적으로 학습시킬 수 있는 오픈소스 모델을 선택하고, 이를 자사 서비스 생태계에 깊숙이 통합하는 '목적 특화형' 접근법을 취해야 합니다. 모델 자체의 성능보다는 그 모델이 비즈니스 맥락 안에서 얼마나 정교하게 도구를 활용하고 사용자 경험을 개선하는지가 진정한 차별화 포인트가 될 것입니다.

테스트 시점 디퓨전을 활용 (새 탭에서 열림)

Google Cloud 연구진이 발표한 **TTD-DR(Test-Time Diffusion Deep Researcher)**은 인간의 반복적인 연구 방식을 모방하여 고품질의 연구 보고서를 작성하는 새로운 프레임워크입니다. 이 시스템은 초안을 '노이즈'가 섞인 상태로 간주하고 검색된 정보를 통해 이를 점진적으로 정제하는 '디퓨전(Diffusion)' 모델의 원리를 도입했습니다. 이를 통해 TTD-DR은 장문 보고서 작성 및 복잡한 다단계 추론 작업에서 기존 모델들을 능가하는 최첨단(SOTA) 성능을 기록했습니다. ### 디퓨전 프로세스를 활용한 보고서 정제 * **노이즈 제거로서의 수정:** 가공되지 않은 거친 초안을 이미지 생성 모델의 '노이즈' 상태로 정의하고, 검색 도구를 통해 확보한 새로운 사실 정보를 '디노이징(Denoising)' 단계로 활용하여 보고서의 품질을 단계적으로 높입니다. * **인간의 연구 패턴 모방:** 계획 수립, 초안 작성, 추가 조사, 피드백 기반 수정으로 이어지는 인간의 비선형적이고 반복적인 연구 과정을 알고리즘화했습니다. * **지속적인 루프:** 단발성 답변 생성에 그치지 않고, 검색된 정보를 바탕으로 기존 초안의 논리를 강화하거나 누락된 정보를 보충하며 최종 결과물에 도달할 때까지 반복 수정을 거칩니다. ### 핵심 아키텍처: 백본 DR 디자인 * **연구 계획 수립:** 사용자 쿼리를 분석하여 최종 보고서에 필요한 핵심 영역을 구조화된 계획서 형태로 우선 생성합니다. * **반복적 검색(Iterative Search):** 계획서와 이전 검색 맥락을 바탕으로 검색 질문을 생성하는 단계(2a)와, 검색된 문서에서 정답을 요약·추출하는 RAG 기반 단계(2b)가 유기적으로 작동합니다. * **최종 보고서 합성:** 수집된 모든 정보(계획서, 질의응답 쌍)를 통합하여 일관성 있고 포괄적인 형태의 전문 보고서를 작성합니다. ### 컴포넌트 단위의 자기 진화(Self-evolution) 알고리즘 * **다양성 확보:** 각 단계에서 여러 답변 변형을 생성하여 더 넓은 탐색 공간에서 최적의 정보를 찾습니다. * **LLM 기반 평가 및 피드백:** 'LLM-as-a-judge' 시스템을 통해 유용성과 포괄성을 평가하고, 자동화된 평점과 텍스트 피드백을 생성하여 수정 방향을 제시합니다. * **교차 결합(Cross-over):** 여러 차례 수정을 거친 다양한 답변 변형들을 하나의 고품질 출력물로 병합함으로써, 각 진화 경로의 장점만을 취합합니다. ### 성능 검증 및 실무적 시사점 * **SOTA 달성:** 장문 작성 벤치마크인 'LongBench-Write'에서 GPT-4o와 O1 등 기존의 강력한 모델들을 뛰어넘는 성능을 입증했습니다. * **복잡한 추론 능력:** HotpotQA, Bamboogle과 같은 다단계(Multi-hop) 추론 작업에서 단순 검색 이상의 깊이 있는 분석 능력을 보여주었습니다. * **적용 권장:** 이 기술은 단순한 정보 나열을 넘어, 논리적 완성도가 중요한 학술적 조사, 기업 분석 보고서, 복잡한 정책 연구 등 전문적인 글쓰기 자동화 분야에 매우 효과적으로 적용될 수 있습니다.

줌인: 생성형 AI를 활용 (새 탭에서 열림)

구글 리서치(Google Research)는 물리 기반 기후 모델링과 생성형 AI를 결합하여 지역별 환경 위험을 정밀하게 예측하는 ‘동적 생성 다운스케일링(Dynamical-generative downscaling)’ 기술을 발표했습니다. 이 방법은 기존 전 지구 기후 모델의 낮은 해상도(약 100km)와 실제 지역사회에 필요한 고해상도(약 10km) 정보 사이의 간극을 혁신적으로 메워줍니다. 확률적 확산 모델(Probabilistic Diffusion Models)을 활용해 물리적 현실성을 유지하면서도 기존 방식보다 훨씬 적은 비용으로 상세한 환경 위험 평가를 가능하게 한다는 점이 핵심입니다. **기존 기후 모델링의 해상도 한계** * 전 지구 시스템 모델(Earth System Models)은 미래 기후 변화를 예측하는 가장 강력한 도구이지만, 계산 비용 문제로 인해 해상도가 약 100km 단위에 머물러 있습니다. * 도시 단위(약 10km)의 정밀한 예측은 농업 전략, 수자원 관리, 홍수 및 폭염 대비 등에 필수적이지만, 이를 위한 기존의 ‘동적 다운스케일링’ 방식은 엄청난 컴퓨팅 자원을 소모합니다. * 상대적으로 빠른 ‘통계적 다운스케일링’ 방식은 계산은 빠르지만, 복잡한 국지적 기상 패턴이나 극단적인 기상 현상을 정확히 포착하지 못하고 미래 시나리오에 대한 일반화 능력이 떨어진다는 단점이 있습니다. **물리 모델과 생성형 AI의 결합: R2D2 모델** * 연구진은 물리적 사실성과 AI의 패턴 인식 능력을 결합한 2단계 하이브리드 접근법을 제시했습니다. * 1단계(물리 기반 통과): 지역 기후 모델(RCM)을 사용해 전 지구 데이터를 중간 해상도(약 50km)로 변환합니다. 이 과정은 다양한 글로벌 모델의 출력을 공통된 물리적 격자로 정렬하여 AI가 학습하기 좋은 환경을 만듭니다. * 2단계(AI 세부 묘사): 생성형 AI 모델인 ‘R2D2(Regional Residual Diffusion-based Downscaling)’가 중간 해상도 출력에 미세한 지형 효과 등 고해상도 디테일을 추가합니다. * R2D2는 중간 해상도와 고해상도 필드 사이의 차이인 ‘잔차(Residual)’를 학습함으로써 미처 보지 못한 환경 조건에서도 뛰어난 일반화 성능을 보여줍니다. **효율적이고 신뢰할 수 있는 지역 기후 예측** * 미국 서부 지역 데이터셋(WUS-D3)을 통해 평가한 결과, 이 방식은 기존 통계적 방식 대비 미세 규모 오차를 40% 이상 줄였습니다. * 전통적인 동적 다운스케일링 방식에 비해 약 100배 빠른 속도를 자랑하며, 덕분에 수많은 기후 시나리오를 동시에 분석하여 미래의 불확실성을 더욱 포괄적으로 평가할 수 있습니다. * 특히 단 하나의 동적 다운스케일링 모델 데이터로 학습된 R2D2가 서로 다른 여러 전 지구 모델의 결과물까지 성공적으로 처리할 수 있어 학습 비용을 크게 절감했습니다. 이 기술은 기후 변화로 인한 극단적인 기상 현상에 대비해야 하는 도시 계획가와 정책 입안자들에게 매우 실용적인 도구가 될 것입니다. 저비용으로 고해상도 위험 평가가 가능해짐에 따라, 각 지역 사회는 자신의 지역에 특화된 정밀한 기후 적응 전략을 더욱 신속하고 체계적으로 수립할 수 있을 것으로 기대됩니다.

AI로 생성한 이미지는 어떻게 평가할까요? (인페인팅 적용편) (새 탭에서 열림)

배경 인물 제거(BPR) 기능을 구현하기 위해서는 사진의 빈 공간을 자연스럽게 채워주는 '인페인팅(Inpainting)' 기술의 선정이 핵심적이지만, 단순히 논문의 수치만으로는 실제 서비스 성능을 가늠하기 어렵습니다. 이를 해결하기 위해 LY Corporation 개발팀은 다양한 생성형 AI 모델과 평가 지표를 비교 분석하여, 실제 사람의 시각적 평가와 가장 유사한 결과를 도출하는 최적의 평가 체계를 구축하고자 했습니다. 결과적으로 고해상도와 큰 삭제 영역 등 실무적인 제약 조건을 반영한 자체 테스트를 통해 서비스에 가장 적합한 모델 선정 기준을 마련했습니다. **배경 인물 제거(BPR)의 3단계 프로세스** * **인스턴스 분할(Instance Segmentation):** 사진 속 각 픽셀이 어떤 객체(사람, 건물, 나무 등)에 속하는지 식별하여 개별적으로 인식합니다. * **주요 객체 탐지(Salient Object Detection):** 이미지에서 시선이 집중되는 메인 피사체와 제거 대상인 배경 인물을 픽셀 단위로 구분합니다. * **인페인팅(Inpainting) 수행:** 배경 인물이 제거된 빈 영역을 주변 환경과 조화롭게 재구성하여 채워 넣는 최종 단계로, 전체 결과물 품질에 가장 큰 영향을 미칩니다. **인페인팅 모델의 기술적 접근 방식** * **디퓨전(Diffusion) 계열:** 랜덤 노이즈에서 점진적으로 이미지를 복원하며, 복잡한 세부 사항을 자연스럽게 살리는 데 유리하지만 생성 속도가 상대적으로 느립니다. * **GAN(Generative Adversarial Network) 계열:** 생성자와 판별자가 경쟁하며 학습하는 구조로, 디퓨전 모델에 비해 이미지 생성 속도가 빠르다는 장점이 있습니다. * **성능의 가변성:** 저해상도나 좁은 영역에서는 대부분의 모델이 준수한 성능을 보이나, 고해상도 이미지에서 큰 영역을 삭제할 경우 모델별로 결과물의 품질 차이가 극명하게 발생합니다. **신뢰할 수 있는 인페인팅 모델 평가의 어려움** * **벤치마크의 한계:** 논문에서 제시하는 256x256 등 고정된 저해상도 지표는 실제 서비스의 고해상도 환경을 대변하지 못합니다. * **정답의 부재:** 이미지 생성은 하나의 정답이 존재하지 않으며, 다양한 결과물이 모두 정답이 될 수 있어 수치화된 평가가 복잡합니다. * **상황별 성능 변화:** 특정 테스트셋에서 우수한 모델이 다른 인페인팅 영역이나 데이터셋에서는 실망스러운 결과를 보여주는 경우가 빈번합니다. **실험을 통한 최적의 평가 방법 탐색** * **데이터셋 구성:** 품질 편차가 큰 10개의 이미지를 모은 'BPR 평가 데이터셋'과 표준인 'Places365'를 활용해 11개의 최신 인페인팅 모델(LaMa, HINT, FLUX.1 등)을 테스트했습니다. * **사용된 지표:** 단일 이미지 품질을 측정하는 Aesthetics score, CLIP-IQA, Q-Align과 모델 간 선호도를 비교하는 PickScore, ImageReward 등을 적용했습니다. * **최종 목표:** 사람이 직접 눈으로 평가하는 비용과 시간을 줄이면서도, 인간의 주관적 평가 결과와 가장 높은 상관관계를 갖는 자동화된 평가 지표를 찾는 데 집중했습니다. **성공적인 AI 기능을 위한 실용적 제언** 논문상의 지표(Metric)에만 의존하기보다는 실제 서비스가 적용될 환경(해상도, 객체 크기 등)과 유사한 자체 데이터셋을 구축하여 테스트해야 합니다. 특히 배경 인물 제거와 같이 시각적 자연스러움이 중요한 작업에서는 정량적 수치 너머의 '심미적 점수'를 반영할 수 있는 최신 생성형 AI 평가 방법론을 병행하여 모델을 검증하는 것이 필수적입니다.

생성형 AI로 (새 탭에서 열림)

구글은 단 몇 장의 2D 제품 사진만으로 몰입감 있는 3D 쇼핑 경험을 구현하는 최신 생성형 AI 기술을 공개했습니다. 이 기술은 초기 NeRF 모델에서 시작해 시점 조건부 확산 모델을 거쳐, 현재는 고도화된 비디오 생성 모델인 'Veo'를 활용하는 단계까지 발전했습니다. 이를 통해 기업들은 적은 비용과 시간으로도 가구, 의류, 전자제품 등 다양한 카테고리의 제품을 360도 인터뷰 뷰로 변환하여 소비자에게 실제 매장에서 물건을 살펴보는 듯한 경험을 제공할 수 있게 되었습니다. ## 1세대: 신경 방사 휘도장(NeRF)을 이용한 초기 모델 * **핵심 기술:** 2022년 구글은 NeRF(Neural Radiance Fields)를 활용해 5장 이상의 이미지로부터 360도 회전 뷰를 생성하는 기술을 선보였습니다. * **구현 과정:** 가장 정보가 많은 이미지를 선택하고 배경을 제거한 뒤, NOCS(XYZ 예측)와 CamP(카메라 최적화) 등을 결합하여 제품의 3D 표현력을 학습시켰습니다. * **한계점:** 신발과 같이 비교적 단순한 구조에는 효과적이었으나, 샌들이나 하이힐처럼 구조가 얇고 복잡한 제품은 소수의 이미지로 정확한 기하학적 구조를 재구성하는 데 어려움이 있었습니다. ## 2세대: 시점 조건부 확산 모델을 통한 확장 * **시점 예측:** 특정 각도의 사진(예: 신발 윗면)만 있어도 "다른 각도에서는 어떻게 보일까?"를 예측하는 시점 조건부(View-conditioned) 확산 모델을 도입했습니다. * **기술적 특징:** 'DreamFusion'에서 제안된 점수 증류 샘플링(SDS) 기법을 사용하여, 모델이 렌더링한 이미지와 확산 모델이 생성한 목표 이미지를 비교하며 3D 모델의 매개변수를 최적화했습니다. * **성과:** 이 방식은 복잡한 구조의 신발 카테고리에서도 높은 현실감을 구현해냈으며, 구글 쇼핑에서 제공되는 대다수의 360도 신발 시각화 기능의 기반이 되었습니다. ## 3세대: Veo 모델을 활용한 범용적 3D 생성 * **비디오 생성 기술의 응용:** 구글의 최첨단 비디오 생성 모델인 'Veo'를 기반으로 하며, 빛의 상호작용, 재질, 질감 및 복잡한 기하학적 구조를 탁월하게 포착합니다. * **학습 방식:** 수백만 개의 고품질 3D 합성 자산을 다양한 조명과 각도에서 렌더링한 데이터를 학습하여, 하나 이상의 이미지 조건에서 360도 회전 영상을 생성하도록 미세 조정(Fine-tuning)되었습니다. * **범용성 및 효율성:** 정밀한 카메라 위치 추정 과정이 필요 없어 모델이 더 단순하고 신뢰도가 높으며, 가구와 전자제품처럼 표면이 반사되거나 복잡한 제품군에서도 자연스러운 3D 뷰를 생성합니다. * **입력 데이터:** 단 한 장의 사진으로도 생성이 가능하지만, 가려진 부분에 대한 '환각(Hallucination)' 현상을 줄이고 고화질 결과물을 얻기 위해서는 제품의 전체 면을 포괄하는 최소 3장의 이미지가 권장됩니다. 이러한 기술적 진보는 온라인 쇼핑의 시각적 한계를 극복하고 소비자에게 더 구체적인 정보를 제공하는 데 기여하고 있습니다. 향후 비즈니스 운영자들은 제품의 앞면, 뒷면, 측면을 포함한 최소 3장의 고화질 사진을 확보함으로써 AI를 통한 고품질의 3D 쇼핑 콘텐츠를 손쉽게 구축할 수 있을 것으로 보입니다.