text-to-image

3 개의 포스트

사진 한 장이 천 마디 (비공식적인) 말을 전한다: 일관된 합성 사진 앨범의 계층적 생성 (새 탭에서 열림)

구글 리서치(Google Research)는 차분 프라이버시(Differential Privacy, DP) 기술을 적용하여 데이터의 프라이버시를 완벽히 보호하면서도, 사진 앨범과 같이 복잡한 구조를 가진 합성 데이터를 생성하는 새로운 방법론을 제시했습니다. 이 방식은 이미지를 직접 생성하는 대신 중간 단계로 '텍스트' 표현을 활용하고 이를 계층적으로 구성함으로써, 개별 사진 간의 주제적 일관성을 유지하는 동시에 연산 효율성까지 확보했습니다. 결과적으로 조직은 복잡한 분석 도구마다 프라이버시 기술을 개별 적용할 필요 없이, 안전하게 생성된 합성 앨범 데이터셋만으로도 고도화된 모델 학습과 분석을 수행할 수 있게 됩니다. ### 중간 텍스트 표현을 활용한 프라이버시 강화 기존의 합성 데이터 생성 방식이 단일 이미지나 짧은 텍스트에 치중했던 것과 달리, 본 연구는 이미지를 텍스트로 변환하는 과정을 핵심 기제로 활용합니다. * **손실 압축을 통한 프라이버시 증진:** 이미지를 상세한 텍스트 캡션으로 설명하는 과정은 본질적으로 정보의 일부를 생략하는 '손실 연산'이며, 이는 원본 데이터의 미세한 고유 정보를 보호하는 자연스러운 방어막 역할을 합니다. * **LLM의 강점 활용:** 거대언어모델(LLM)의 뛰어난 텍스트 생성 및 요약 능력을 활용하여, 원본 이미지의 핵심적인 의미 정보(Semantic information)를 효과적으로 포착합니다. * **리소스 최적화:** 이미지 생성은 비용이 많이 들지만 텍스트 생성은 상대적으로 저렴합니다. 텍스트 단계에서 먼저 콘텐츠를 필터링하고 선별함으로써, 불필요한 이미지 생성에 소요되는 연산 자원을 절약할 수 있습니다. ### 계층적 구조를 통한 앨범의 일관성 유지 사진 앨범은 여러 장의 사진이 하나의 주제나 캐릭터를 공유해야 하므로 단순한 개별 이미지 생성보다 난이도가 높습니다. 연구팀은 이를 해결하기 위해 계층적 생성 전략을 채택했습니다. * **2단계 모델 구조:** 앨범 전체의 요약을 생성하는 모델과, 이 요약을 바탕으로 개별 사진의 상세 캡션을 생성하는 모델을 분리하여 학습시킵니다. * **문맥적 일관성 확보:** 모든 개별 사진 캡션이 동일한 '앨범 요약'을 문맥(Context)으로 공유하기 때문에, 생성된 결과물들이 서로 조화를 이루며 하나의 일관된 스토리를 형성하게 됩니다. * **연산 효율성 증대:** 트레이닝 비용은 컨텍스트 길이에 따라 제곱으로 증가합니다. 하나의 긴 컨텍스트를 처리하는 대신 짧은 컨텍스트를 가진 두 개의 모델을 학습시킴으로써 전체적인 연산 비용을 대폭 낮췄습니다. ### 프라이버시가 보장된 학습 알고리즘 합성 데이터가 원본 사용자의 고유한 정보를 유출하지 않도록 엄격한 수학적 증명을 기반으로 하는 학습 기술을 적용했습니다. * **DP-SGD 적용:** DP-SGD(Differentially Private Stochastic Gradient Descent) 알고리즘을 사용하여 모델을 미세 조정(Fine-tuning)함으로써, 생성된 데이터셋이 실제 데이터의 공통적인 패턴은 학습하되 특정 개인의 세부 사항은 포함하지 않도록 보장합니다. * **안전한 데이터 대체제:** 이렇게 생성된 합성 데이터는 프라이버시 위험이 제거된 상태이므로, 데이터 과학자들은 별도의 복잡한 보안 절차 없이 표준적인 분석 기법을 즉시 적용할 수 있습니다. 이 방법론은 단순히 사진 앨범에 국한되지 않고 비디오나 복합 문서와 같이 구조화된 멀티모달 데이터를 안전하게 생성하는 데 광범위하게 응용될 수 있습니다. 고품질의 데이터 확보가 어렵거나 프라이버시 규제가 엄격한 환경에서, 이와 같은 계층적 합성 데이터 생성 방식은 안전하고 효율적인 대안이 될 것입니다.

이미지 생성을 위한 협력적 (새 탭에서 열림)

PASTA(Preference Adaptive and Sequential Text-to-image Agent)는 사용자의 고유한 취향을 실시간으로 학습하여 여러 차례의 상호작용을 통해 이미지를 정교화하는 강화학습 기반 에이전트입니다. 사용자가 단일 프롬프트만으로 원하는 결과물을 얻기 어려운 기존 텍스트-이미지(T2I) 모델의 한계를 극복하기 위해, 에이전트와 사용자가 대화하듯 협업하는 방식을 채택했습니다. 구글 리서치는 실제 인간의 피드백과 대규모 사용자 시뮬레이션 데이터를 결합하여 학습함으로써 사용자 만족도를 획기적으로 높이는 데 성공했습니다. ### PASTA의 핵심 메커니즘과 협업 프로세스 - PASTA는 가치 기반 강화학습(Value-based RL) 모델을 사용하여 각 단계에서 사용자의 누적 만족도를 극대화할 수 있는 최적의 '프롬프트 확장(Prompt expansions)' 세트를 선택합니다. - 프로세스는 사용자가 초기 프롬프트를 입력하면 Gemini Flash 모델이 다양한 후보군을 생성하고, PASTA 에이전트가 이 중 최적의 이미지 4개를 선별하여 제안하는 방식으로 진행됩니다. - 사용자가 제안된 이미지 중 자신의 의도에 가장 가까운 것을 선택하면, 에이전트는 이를 실시간 피드백으로 삼아 다음 단계에서 더욱 정교한 후보를 제시하는 시각적 대화 루프를 형성합니다. ### 사용자 시뮬레이션을 통한 학습 데이터 확보 - 데이터 부족과 개인정보 보호 문제를 해결하기 위해 실제 사용자 데이터 7,000여 건을 바탕으로 '사용자 시뮬레이터'를 구축하여 3만 건 이상의 상호작용 데이터를 생성했습니다. - 사용자 모델은 특정 이미지 세트를 좋아할 확률을 예측하는 '유틸리티 모델'과 여러 선택지 중 하나를 고르는 '선택 모델'로 구성되며, 사전 학습된 CLIP 인코더를 활용합니다. - 기대값 최대화(EM) 알고리즘을 통해 사용자의 잠재적 유형(예: 동물, 음식, 추상화 선호 등)을 파악하고 학습에 반영함으로써 에이전트가 다양한 사용자 취향에 빠르게 적응할 수 있도록 했습니다. ### 성능 검증 및 실험 결과 - 연구팀은 암시적 Q-학습(Implicit Q-Learning, IQL)을 사용해 PASTA를 훈련시켰으며, 실제 데이터와 시뮬레이션 데이터를 결합한 모델이 가장 뛰어난 성능을 보였습니다. - Pick-a-Pic 데이터셋 accuracy와 스피어먼 순위 상관계수(Spearman’s rank correlation) 등 주요 지표에서 기존의 최신(SOTA) 모델(Gemini Flash 및 SDXL 기반)을 일관되게 상회했습니다. - 결과적으로 PASTA는 사용자가 반복적으로 프롬프트를 수정해야 하는 번거로움을 줄이면서도, 몇 번의 선택만으로 창의적 의도에 완벽히 부합하는 이미지를 생성하는 능력을 입증했습니다. PASTA는 이미지 생성 과정에 사용자의 피드백을 실시간으로 녹여내는 새로운 협업 패러다임을 제시합니다. 단순히 명령을 수행하는 도구를 넘어 사용자의 미적 취향을 이해하는 개인화된 AI 에이전트로의 발전을 보여주는 사례로, 향후 다양한 창작 지원 도구에 이 프레임워크를 적용할 수 있을 것으로 기대됩니다.

AI로 생성한 이미지는 어떻게 평가할까요? (블랙박스 최적화 적용편) (새 탭에서 열림)

LY Corporation은 전용 디자인 스타일을 반영한 텍스트 투 이미지(text-to-image) 모델을 통해 디자이너의 반복 업무를 줄이고 창의성을 극대화하는 프로젝트를 진행하고 있습니다. 좋은 품질의 이미지를 일관되게 생성하기 위해서는 모델의 구조적 이해와 더불어 하이퍼파라미터 최적화가 필수적이며, 이를 위해 이미지를 수치적으로 평가하고 탐색하는 과정이 중요합니다. 본 글은 스테이블 디퓨전과 최신 SD3.5 모델의 작동 원리를 바탕으로 최적의 이미지를 얻기 위한 기술적 기반을 상세히 다룹니다. ### 디퓨전 및 스테이블 디퓨전 모델의 작동 원리 - **디퓨전 프로세스**: 이미지에 점진적으로 가우스 잡음을 추가하여 무작위 상태로 만드는 '전방향 프로세스'와, 학습된 모델이 노이즈를 단계적으로 제거하며 이미지를 복원하는 '역방향 프로세스'로 구성됩니다. - **잠재 공간(Latent Space) 활용**: 스테이블 디퓨전(SD)은 연산량을 줄이기 위해 고차원의 픽셀 공간이 아닌 저차원의 잠재 공간에서 디퓨전 프로세스를 수행하며, VAE(Variational Autoencoder)를 통해 이미지와 잠재 벡터를 상호 변환합니다. - **모델의 진화**: SDXL은 텍스트 인코더를 추가해 프롬프트 이해도를 높였으며, SD3.5는 U-Net 대신 MMDiT(Multimodal Diffusion Transformer)를 도입하여 텍스트와 이미지 모달리티 간의 결합력을 강화했습니다. ### 플로 매칭(Flow Matching)과 결정적 이미지 생성 - **플로 모델로의 전환**: SD3.5는 기존의 디퓨전 방식이 아닌 플로 매칭 방식을 채택하여 정규 분포와 실제 데이터 분포 사이의 벡터 장(vector field)을 학습합니다. - **결정적(Deterministic) 특성**: 랜덤 노이즈에서 데이터 포인트로 이동하는 속도(velocity)를 계산하여 이미지를 생성하기 때문에, 입력값이 같으면 항상 동일한 결과가 나오는 안정적인 구조를 가집니다. ### 이미지 품질을 좌우하는 주요 하이퍼파라미터 - **시드(Seed)와 랜덤 노이즈**: 이미지 생성의 출발점인 초기 잠재 벡터를 결정하는 값으로, '좋은 시작 지점'을 찾는 것이 최종 결과물의 구도와 품질에 큰 영향을 미칩니다. - **프롬프트(Prompt)**: 사용자의 의도를 모델에 전달하는 창구로, 텍스트 임베딩과 어텐션 메커니즘을 통해 노이즈 제거 과정에 개입합니다. - **Classifier-Free Guidance (CFG)**: 생성된 이미지에 프롬프트의 정보를 얼마나 강하게 반영할지 조절하는 수치이며, 텍스트 조건부 노이즈와 네거티브 프롬프트 기반 노이즈의 차이를 활용해 정확도를 조절합니다. 효과적인 AI 이미지 생성을 위해서는 단순히 프롬프트를 수정하는 것에 그치지 않고, 시드와 CFG 같은 파라미터가 이미지의 구도와 스타일 변화에 미치는 기술적 메커니즘을 이해해야 합니다. 특히 수동으로 최적의 값을 찾는 것은 비효율적이므로, 이미지 평가 지표를 활용해 하이퍼파라미터 탐색 과정을 자동화하는 워크플로우를 구축하는 것이 실무적으로 큰 도움이 됩니다.