model-evaluation

3 개의 포스트

사용자의 목소리를 AI로 재현하다: LLM기반 Multi Agent UX플랫폼 개발기 (새 탭에서 열림)

네이버의 'NSona' 프로젝트는 LLM 기반의 멀티 에이전트 시스템을 통해 방대한 사용자 리서치 데이터를 실시간 협업 자원으로 전환하며, 서비스 기획과 실제 개발 사이의 간극을 혁신적으로 줄인 사례를 제시합니다. 디자이너, AI 리서처, 개발자가 협력하여 단순한 기술 구현을 넘어 사용자의 목소리를 생생하게 재현하는 페르소나 봇을 개발함으로써, AI가 도구를 넘어 협업의 주체가 될 수 있음을 증명했습니다. 이를 통해 팀은 사용자의 피드백을 실시간으로 서비스 개발 과정에 투영하고 의사결정의 효율성을 극대화하는 성과를 거두었습니다. **사용자 경험을 재현하는 페르소나 봇 "NSona"** * 기존 UX 리서치가 가진 일회성 데이터의 한계를 극복하고, 리서치 결과를 데일리 협업 과정에서 상시 활용할 수 있는 자산으로 전환하기 위해 기획되었습니다. * 사용자의 특성과 행동 양식을 학습한 페르소나 봇 'NSona'를 통해 기획자나 개발자가 언제든 사용자의 관점에서 서비스에 대한 의견을 물을 수 있는 환경을 구축했습니다. **에이전트 중심의 서비스 구조와 기술적 도전** * 단일 LLM 모델의 한계를 넘어, 특정 서비스 목적에 최적화된 'Agent 중심의 서비스 구조'를 설계하여 보다 정교한 사용자 재현을 시도했습니다. * Multi-Party 대화 시스템을 도입하여 여러 페르소나가 상호작용하며 복합적인 피드백을 제공할 수 있는 기술적 토대를 마련했습니다. * 일반적인 언어 모델 평가 지표 대신, 서비스의 맥락과 UX 요구사항을 반영한 'Service-specific' 평가 프로세스를 독자적으로 구축하여 모델의 품질을 관리했습니다. **AI 시대의 변화된 협업 방식과 R&R** * 전통적인 업무 경계를 허물고 디자이너는 프롬프트를 설계하며, 리서처는 로직을 에이전트 구조로 전환하고, 개발자는 AI를 비평의 대상으로 다루는 새로운 협업 모델을 실천했습니다. * 결과물의 완성도에만 집착하기보다 '어디서 시작점을 찍느냐'에 집중하며, AI를 개발 프로세스의 초기 단계부터 능동적인 파트너로 참여시켰습니다. * 이러한 과정은 직군 간의 선형적인 협업 구조를 유기적인 파장 형태의 협업 구조로 변화시키는 계기가 되었습니다. **사용자 중심 AI 개발을 위한 실무적 제언** 성공적인 AI 서비스를 위해서는 기술적 구현만큼이나 기획, 디자인, 엔지니어링 간의 유기적인 결합이 필수적입니다. NSona의 사례처럼 사용자의 목소리를 데이터 더미가 아닌 대화 가능한 실체로 변환하여 협업의 중심에 배치한다면, 보다 사용자의 니즈에 밀착된 서비스를 더 빠른 속도로 검증하고 개발할 수 있을 것입니다.

AI로 생성한 이미지는 어떻게 평가할까요? (인페인팅 적용편) (새 탭에서 열림)

배경 인물 제거(BPR) 기능을 구현하기 위해서는 사진의 빈 공간을 자연스럽게 채워주는 '인페인팅(Inpainting)' 기술의 선정이 핵심적이지만, 단순히 논문의 수치만으로는 실제 서비스 성능을 가늠하기 어렵습니다. 이를 해결하기 위해 LY Corporation 개발팀은 다양한 생성형 AI 모델과 평가 지표를 비교 분석하여, 실제 사람의 시각적 평가와 가장 유사한 결과를 도출하는 최적의 평가 체계를 구축하고자 했습니다. 결과적으로 고해상도와 큰 삭제 영역 등 실무적인 제약 조건을 반영한 자체 테스트를 통해 서비스에 가장 적합한 모델 선정 기준을 마련했습니다. **배경 인물 제거(BPR)의 3단계 프로세스** * **인스턴스 분할(Instance Segmentation):** 사진 속 각 픽셀이 어떤 객체(사람, 건물, 나무 등)에 속하는지 식별하여 개별적으로 인식합니다. * **주요 객체 탐지(Salient Object Detection):** 이미지에서 시선이 집중되는 메인 피사체와 제거 대상인 배경 인물을 픽셀 단위로 구분합니다. * **인페인팅(Inpainting) 수행:** 배경 인물이 제거된 빈 영역을 주변 환경과 조화롭게 재구성하여 채워 넣는 최종 단계로, 전체 결과물 품질에 가장 큰 영향을 미칩니다. **인페인팅 모델의 기술적 접근 방식** * **디퓨전(Diffusion) 계열:** 랜덤 노이즈에서 점진적으로 이미지를 복원하며, 복잡한 세부 사항을 자연스럽게 살리는 데 유리하지만 생성 속도가 상대적으로 느립니다. * **GAN(Generative Adversarial Network) 계열:** 생성자와 판별자가 경쟁하며 학습하는 구조로, 디퓨전 모델에 비해 이미지 생성 속도가 빠르다는 장점이 있습니다. * **성능의 가변성:** 저해상도나 좁은 영역에서는 대부분의 모델이 준수한 성능을 보이나, 고해상도 이미지에서 큰 영역을 삭제할 경우 모델별로 결과물의 품질 차이가 극명하게 발생합니다. **신뢰할 수 있는 인페인팅 모델 평가의 어려움** * **벤치마크의 한계:** 논문에서 제시하는 256x256 등 고정된 저해상도 지표는 실제 서비스의 고해상도 환경을 대변하지 못합니다. * **정답의 부재:** 이미지 생성은 하나의 정답이 존재하지 않으며, 다양한 결과물이 모두 정답이 될 수 있어 수치화된 평가가 복잡합니다. * **상황별 성능 변화:** 특정 테스트셋에서 우수한 모델이 다른 인페인팅 영역이나 데이터셋에서는 실망스러운 결과를 보여주는 경우가 빈번합니다. **실험을 통한 최적의 평가 방법 탐색** * **데이터셋 구성:** 품질 편차가 큰 10개의 이미지를 모은 'BPR 평가 데이터셋'과 표준인 'Places365'를 활용해 11개의 최신 인페인팅 모델(LaMa, HINT, FLUX.1 등)을 테스트했습니다. * **사용된 지표:** 단일 이미지 품질을 측정하는 Aesthetics score, CLIP-IQA, Q-Align과 모델 간 선호도를 비교하는 PickScore, ImageReward 등을 적용했습니다. * **최종 목표:** 사람이 직접 눈으로 평가하는 비용과 시간을 줄이면서도, 인간의 주관적 평가 결과와 가장 높은 상관관계를 갖는 자동화된 평가 지표를 찾는 데 집중했습니다. **성공적인 AI 기능을 위한 실용적 제언** 논문상의 지표(Metric)에만 의존하기보다는 실제 서비스가 적용될 환경(해상도, 객체 크기 등)과 유사한 자체 데이터셋을 구축하여 테스트해야 합니다. 특히 배경 인물 제거와 같이 시각적 자연스러움이 중요한 작업에서는 정량적 수치 너머의 '심미적 점수'를 반영할 수 있는 최신 생성형 AI 평가 방법론을 병행하여 모델을 검증하는 것이 필수적입니다.

글로벌 헬스를 위한 LL (새 탭에서 열림)

구글 리서치는 전 세계적인 보건 불평등을 해소하고 저개발 지역의 의료 지원을 강화하기 위해, 열대 및 감염성 질환(TRINDs)에 특화된 LLM 벤치마킹 데이터셋과 평가 파이프라인을 개발했습니다. 연구 결과, 기존 의료 시험(USMLE)에서 우수한 성적을 거둔 모델들도 특정 지역의 질병 데이터나 맥락 정보가 부족할 경우 성능이 현저히 저하되는 '분포 변화' 문제를 겪는 것으로 나타났습니다. 이 연구는 LLM이 실제 글로벌 보건 현장에서 진단 보조 도구로 활용되기 위해서는 증상뿐만 아니라 지역, 위험 요인 등 구체적인 컨텍스트를 정밀하게 학습해야 함을 시사합니다. ### TRINDs 데이터셋 구축과 합성 페르소나 기술 * WHO, CDC 등 신뢰할 수 있는 기관의 데이터를 기반으로 50가지 질병에 대한 '시드 페르소나' 템플릿을 생성했습니다. * LLM 프롬프팅을 활용해 증상, 인구통계학적 특성, 임상 및 소비자 관점의 표현, 언어(영어 및 프랑스어) 등을 변주하여 11,000개 이상의 합성 페르소나 데이터셋을 구축했습니다. * 단순한 질병 정의를 넘어 환자의 생활 방식, 위치 정보, 위험 요인 등 실제 의료 현장에서 발생할 수 있는 복합적인 시나리오를 포함했습니다. ### 모델 성능과 컨텍스트의 상관관계 * Gemini 1.5 모델을 대상으로 평가한 결과, 증상 정보만 제공했을 때보다 위치 정보(Location)와 특정 위험 요인(Risk factors)을 결합했을 때 진단 정확도가 가장 높게 나타났습니다. * 일반적인 증상만으로는 정확한 진단에 한계가 있으며, 질병이 발생하는 지역적 맥락이 LLM의 추론 성능을 최적화하는 핵심 요소임을 확인했습니다. * 이는 LLM이 의료 지원 도구로 작동할 때 환자의 거주지나 여행 기록 같은 외부 환경 데이터를 통합하는 것이 필수적임을 뒷받침합니다. ### 편향성 및 언어적 다양성 분석 * 인종이나 성별 언급이 모델 성능에 미치는 통계적으로 유의미한 차이는 발견되지 않았으나, 언어에 따른 차이는 존재했습니다. * 시드 데이터를 프랑스어로 번역하여 테스트했을 때 영어에 비해 성능이 낮게 나타나, 비영어권 지역에서의 활용을 위해 다국어 성능 개선이 필요함을 입증했습니다. * '반사실적 위치(Counterfactual location)' 실험을 통해 질병 발생 지역을 임의로 변경했을 때 모델의 판단이 흔들리는 현상을 확인했으며, 이는 모델이 특정 질병과 지역을 고정관념적으로 연결하고 있을 가능성을 시사합니다. 의료용 AI가 전 세계적으로 공정하게 기여하기 위해서는 표준화된 의료 시험 점수를 넘어, 지역 특화된 데이터셋을 통한 정밀한 검증이 선행되어야 합니다. 특히 저의료 지역의 보건 요원들이 LLM을 신뢰할 수 있는 도구로 쓰기 위해서는 지역적 맥락(Context-aware)을 반영한 모델 튜닝과 벤치마킹이 지속적으로 이루어져야 할 것입니다.