LY Corporation은 전용 디자인 스타일을 반영한 텍스트 투 이미지(text-to-image) 모델을 통해 디자이너의 반복 업무를 줄이고 창의성을 극대화하는 프로젝트를 진행하고 있습니다. 좋은 품질의 이미지를 일관되게 생성하기 위해서는 모델의 구조적 이해와 더불어 하이퍼파라미터 최적화가 필수적이며, 이를 위해 이미지를 수치적으로 평가하고 탐색하는 과정이 중요합니다. 본 글은 스테이블 디퓨전과 최신 SD3.5 모델의 작동 원리를 바탕으로 최적의 이미지를 얻기 위한 기술적 기반을 상세히 다룹니다.

디퓨전 및 스테이블 디퓨전 모델의 작동 원리

디퓨전 프로세스: 이미지에 점진적으로 가우스 잡음을 추가하여 무작위 상태로 만드는 '전방향 프로세스'와, 학습된 모델이 노이즈를 단계적으로 제거하며 이미지를 복원하는 '역방향 프로세스'로 구성됩니다.
잠재 공간(Latent Space) 활용: 스테이블 디퓨전(SD)은 연산량을 줄이기 위해 고차원의 픽셀 공간이 아닌 저차원의 잠재 공간에서 디퓨전 프로세스를 수행하며, VAE(Variational Autoencoder)를 통해 이미지와 잠재 벡터를 상호 변환합니다.
모델의 진화: SDXL은 텍스트 인코더를 추가해 프롬프트 이해도를 높였으며, SD3.5는 U-Net 대신 MMDiT(Multimodal Diffusion Transformer)를 도입하여 텍스트와 이미지 모달리티 간의 결합력을 강화했습니다.

플로 매칭(Flow Matching)과 결정적 이미지 생성

플로 모델로의 전환: SD3.5는 기존의 디퓨전 방식이 아닌 플로 매칭 방식을 채택하여 정규 분포와 실제 데이터 분포 사이의 벡터 장(vector field)을 학습합니다.
결정적(Deterministic) 특성: 랜덤 노이즈에서 데이터 포인트로 이동하는 속도(velocity)를 계산하여 이미지를 생성하기 때문에, 입력값이 같으면 항상 동일한 결과가 나오는 안정적인 구조를 가집니다.

이미지 품질을 좌우하는 주요 하이퍼파라미터

시드(Seed)와 랜덤 노이즈: 이미지 생성의 출발점인 초기 잠재 벡터를 결정하는 값으로, '좋은 시작 지점'을 찾는 것이 최종 결과물의 구도와 품질에 큰 영향을 미칩니다.
프롬프트(Prompt): 사용자의 의도를 모델에 전달하는 창구로, 텍스트 임베딩과 어텐션 메커니즘을 통해 노이즈 제거 과정에 개입합니다.
Classifier-Free Guidance (CFG): 생성된 이미지에 프롬프트의 정보를 얼마나 강하게 반영할지 조절하는 수치이며, 텍스트 조건부 노이즈와 네거티브 프롬프트 기반 노이즈의 차이를 활용해 정확도를 조절합니다.

효과적인 AI 이미지 생성을 위해서는 단순히 프롬프트를 수정하는 것에 그치지 않고, 시드와 CFG 같은 파라미터가 이미지의 구도와 스타일 변화에 미치는 기술적 메커니즘을 이해해야 합니다. 특히 수동으로 최적의 값을 찾는 것은 비효율적이므로, 이미지 평가 지표를 활용해 하이퍼파라미터 탐색 과정을 자동화하는 워크플로우를 구축하는 것이 실무적으로 큰 도움이 됩니다.