instance-segmentation

1 개의 포스트

AI로 생성한 이미지는 어떻게 평가할까요? (인페인팅 적용편) (새 탭에서 열림)

배경 인물 제거(BPR) 기능을 구현하기 위해서는 사진의 빈 공간을 자연스럽게 채워주는 '인페인팅(Inpainting)' 기술의 선정이 핵심적이지만, 단순히 논문의 수치만으로는 실제 서비스 성능을 가늠하기 어렵습니다. 이를 해결하기 위해 LY Corporation 개발팀은 다양한 생성형 AI 모델과 평가 지표를 비교 분석하여, 실제 사람의 시각적 평가와 가장 유사한 결과를 도출하는 최적의 평가 체계를 구축하고자 했습니다. 결과적으로 고해상도와 큰 삭제 영역 등 실무적인 제약 조건을 반영한 자체 테스트를 통해 서비스에 가장 적합한 모델 선정 기준을 마련했습니다. **배경 인물 제거(BPR)의 3단계 프로세스** * **인스턴스 분할(Instance Segmentation):** 사진 속 각 픽셀이 어떤 객체(사람, 건물, 나무 등)에 속하는지 식별하여 개별적으로 인식합니다. * **주요 객체 탐지(Salient Object Detection):** 이미지에서 시선이 집중되는 메인 피사체와 제거 대상인 배경 인물을 픽셀 단위로 구분합니다. * **인페인팅(Inpainting) 수행:** 배경 인물이 제거된 빈 영역을 주변 환경과 조화롭게 재구성하여 채워 넣는 최종 단계로, 전체 결과물 품질에 가장 큰 영향을 미칩니다. **인페인팅 모델의 기술적 접근 방식** * **디퓨전(Diffusion) 계열:** 랜덤 노이즈에서 점진적으로 이미지를 복원하며, 복잡한 세부 사항을 자연스럽게 살리는 데 유리하지만 생성 속도가 상대적으로 느립니다. * **GAN(Generative Adversarial Network) 계열:** 생성자와 판별자가 경쟁하며 학습하는 구조로, 디퓨전 모델에 비해 이미지 생성 속도가 빠르다는 장점이 있습니다. * **성능의 가변성:** 저해상도나 좁은 영역에서는 대부분의 모델이 준수한 성능을 보이나, 고해상도 이미지에서 큰 영역을 삭제할 경우 모델별로 결과물의 품질 차이가 극명하게 발생합니다. **신뢰할 수 있는 인페인팅 모델 평가의 어려움** * **벤치마크의 한계:** 논문에서 제시하는 256x256 등 고정된 저해상도 지표는 실제 서비스의 고해상도 환경을 대변하지 못합니다. * **정답의 부재:** 이미지 생성은 하나의 정답이 존재하지 않으며, 다양한 결과물이 모두 정답이 될 수 있어 수치화된 평가가 복잡합니다. * **상황별 성능 변화:** 특정 테스트셋에서 우수한 모델이 다른 인페인팅 영역이나 데이터셋에서는 실망스러운 결과를 보여주는 경우가 빈번합니다. **실험을 통한 최적의 평가 방법 탐색** * **데이터셋 구성:** 품질 편차가 큰 10개의 이미지를 모은 'BPR 평가 데이터셋'과 표준인 'Places365'를 활용해 11개의 최신 인페인팅 모델(LaMa, HINT, FLUX.1 등)을 테스트했습니다. * **사용된 지표:** 단일 이미지 품질을 측정하는 Aesthetics score, CLIP-IQA, Q-Align과 모델 간 선호도를 비교하는 PickScore, ImageReward 등을 적용했습니다. * **최종 목표:** 사람이 직접 눈으로 평가하는 비용과 시간을 줄이면서도, 인간의 주관적 평가 결과와 가장 높은 상관관계를 갖는 자동화된 평가 지표를 찾는 데 집중했습니다. **성공적인 AI 기능을 위한 실용적 제언** 논문상의 지표(Metric)에만 의존하기보다는 실제 서비스가 적용될 환경(해상도, 객체 크기 등)과 유사한 자체 데이터셋을 구축하여 테스트해야 합니다. 특히 배경 인물 제거와 같이 시각적 자연스러움이 중요한 작업에서는 정량적 수치 너머의 '심미적 점수'를 반영할 수 있는 최신 생성형 AI 평가 방법론을 병행하여 모델을 검증하는 것이 필수적입니다.