computer-vision

9 개의 포스트

토스의 AI 기술력, 세계 최고 권위 NeurIPS 2025에서 인정받다: FedLPA 연구 (새 탭에서 열림)

토스는 데이터 주권 문제를 해결하면서도 미지의 데이터를 효과적으로 학습할 수 있는 새로운 연합학습 알고리즘 'FedLPA'를 개발하여 세계 최고 권위의 AI 학회인 NeurIPS 2025에 게재했습니다. 이 기술은 국가별로 상이하고 라벨이 부족한 현실 세계의 데이터 분포를 클라이언트 스스로 파악하여 모델을 최적화함으로써, 개인정보를 보호하는 동시에 글로벌 서비스의 정확도를 획기적으로 높입니다. 이를 통해 토스는 규제 리스크 없는 글로벌 진출과 초개인화된 금융 서비스 제공을 위한 독보적인 기술적 토대를 마련했습니다. ### 연합학습의 도입 배경과 기존 기술의 한계 - **데이터 주권과 보안**: '페이스페이'와 같은 서비스가 해외에 진출할 때, 현지 법령에 따라 생체 데이터를 국외로 반출할 수 없는 문제를 해결하기 위해 데이터를 서버로 모으지 않고 기기 내에서 학습하는 연합학습(Federated Learning)이 필수적입니다. - **데이터 불균형(Non-IID)**: 기존 연합학습은 모든 사용자의 데이터 분포가 유사하다고 가정하지만, 실제로는 국가나 지역별로 얼굴형, 조명, 결제 패턴 등이 판이하게 달라 성능이 저하되는 한계가 있습니다. - **미지 범주 대응 불가**: 서비스 운영 중 발생하는 새로운 인종적 특성이나 신종 부정 결제 패턴(Novel Class)을 기존 기술은 '알고 있는 범주'로만 분류하려다 보니 새로운 변화에 유연하게 대응하지 못했습니다. ### FedLPA의 3단계 혁신 파이프라인 - **신뢰도 기반 로컬 구조 발견(CLSD)**: 단순히 이미지 특징을 비교하는 수준을 넘어, 모델이 확신하는 데이터(High-confidence)의 예측 결과를 활용해 데이터 간의 유사도 그래프를 정교하게 구축하고 정제합니다. - **인포맵 클러스터링(InfoMap)**: 사람이 범주의 개수를 미리 정해주지 않아도, 그래프 내에서 데이터들이 자연스럽게 뭉치는 커뮤니티를 찾아내는 알고리즘을 통해 클라이언트가 스스로 데이터 내의 범주 개수를 파악합니다. - **로컬 사전 확률 정렬(LPA)**: 모델의 예측 결과 분포가 앞서 파악한 실제 데이터의 분포(Empirical Prior)와 일치하도록 강제하는 정규화 과정을 거칩니다. 이를 통해 특정 클래스에 데이터가 쏠려 있어도 모델이 편향되지 않고 균형 잡힌 학습을 수행할 수 있습니다. ### 기술 도입에 따른 비즈니스 기대 효과 - **글로벌 진출 가속화**: 각국의 금융 및 개인정보 규제를 준수하면서도 현지 데이터를 활용한 고성능 모델을 구축할 수 있어, 기술적 진입 장벽 없이 동남아나 유럽 등 글로벌 시장에 빠르게 안착할 수 있습니다. - **초개인화 금융 서비스**: 개별 사용자의 로컬 환경과 특이 패턴을 실시간으로 학습하여, 이상거래탐지(FDS)의 정확도를 높이고 국가별 특수성을 반영한 정교한 신용평가(CSS) 모델을 운영할 수 있습니다. - **운영 효율 극대화**: 새로운 유형의 데이터가 등장할 때마다 사람이 직접 라벨링하고 재학습시키는 과정을 줄여주며, AI가 스스로 새로운 패턴을 감지하고 학습하므로 모델 업데이트 주기와 운영 비용을 획기적으로 단축합니다. FedLPA는 데이터 보안과 모델 성능이라는 상충하는 목표를 동시에 달성함으로써 AI 기술의 실질적인 비즈니스 적용 가능성을 입증했습니다. 데이터 규제가 엄격한 글로벌 환경이나 사용자마다 데이터 특성이 극명하게 다른 금융 도메인에서 AI 서비스를 운영하고자 한다면, FedLPA와 같은 자가 학습 기반의 연합학습 구조를 적극적으로 검토할 것을 권장합니다.

산림 파괴 없는 공급 (새 탭에서 열림)

구글 딥마인드와 구글 리서치 팀이 개발한 'Natural Forests of the World 2020'은 AI를 활용해 천연림과 인공 조림지를 10미터 해상도로 정밀하게 구분해내는 새로운 지도 데이터셋입니다. 이 프로젝트는 단순한 '수목 피복(tree cover)' 데이터가 가졌던 한계를 극복하고, 생물 다양성이 풍부한 천연 생태계를 상업용 식재지와 구분함으로써 글로벌 공급망의 탈산림화 목표 달성을 돕습니다. 92.2%의 높은 정확도를 기록한 이 데이터는 EU 산림전용방지법(EUDR) 등 엄격해지는 국제 환경 규제에 대응하기 위한 핵심적인 기준점(Baseline)을 제시합니다. **기존 산림 지도의 한계와 구분 필요성** * 기존의 위성 기반 지도는 모든 목본 식생을 단순히 '수목 피복'으로 분류하여, 수백 년 된 천연 생태계와 단기 수익형 식재 공간을 구분하지 못하는 '사과와 오렌지의 비교' 오류를 범해왔습니다. * 유럽연합의 산림전용방지법(EUDR)은 2020년 12월 31일 이후 산림이 파괴되거나 황폐화된 토지에서 생산된 커피, 카카오, 고무 등의 제품 판매를 금지하고 있어, 2020년 시점의 정확한 천연림 기준 지도가 필수적입니다. * 천연림은 탄소 흡수, 강수량 조절, 홍수 완화 등 기후 안정화와 생물 종 보호 측면에서 인공림이 대체할 수 없는 고유한 가치를 지닙니다. **MTSViT 모델을 활용한 AI 분석 기술** * 구글은 '다중 모드 시공간 비전 트랜스포머(MTSViT)' 모델을 개발하여, 단일 시점의 위성 이미지가 아닌 시간의 흐름에 따른 변화를 분석하도록 설계했습니다. * 이 모델은 센티넬-2(Sentinel-2) 위성의 시계열 이미지와 고도, 경사 등 지형 데이터, 지리적 좌표를 결합하여 분석합니다. * AI는 1280x1280미터 패치 단위를 관찰하며 각 10x10미터 픽셀이 천연림일 확률을 계산하며, 이를 통해 복잡한 천연림과 균일하고 빠르게 자라는 상업용 식재지의 질감 및 계절적 특성을 식별합니다. **데이터 생성 및 검증 과정** * 전 세계 120만 개 이상의 패치(1280x1280m)를 샘플링하여 대규모 다중 소스 학습 데이터셋을 구축하고 MTSViT 모델을 훈련시켰습니다. * 훈련된 모델을 지구 전체 육지에 적용하여 전 세계적으로 일관된 10미터 해상도의 천연림 확률 지도를 생성했습니다. * 독립적인 글로벌 산림 관리 데이터셋을 2020년 기준으로 업데이트하여 검증한 결과, 92.2%라는 업계 최고 수준의 정확도를 입증했으며 관련 연구는 '네이처 사이언티픽 데이터(Nature Scientific Data)'에 게재되었습니다. 이 데이터셋은 구글 어스 엔진(Earth Engine) 등을 통해 공개되어 있으며, 기업은 공급망 실사를, 정부는 산림 파괴 모니터링을, 보존 단체는 보호 구역 설정 등을 수행할 때 실질적인 기술적 토대로 활용할 수 있습니다.

StreetReaderAI: 문맥 인식 (새 탭에서 열림)

StreetReaderAI는 구글 리서치에서 개발한 시각장애인 및 저시력자를 위한 혁신적인 스트리트 뷰 프로토타입으로, 멀티모달 AI인 Gemini를 활용해 시각적 정보를 실시간 음성 정보로 변환합니다. 기존 지도 서비스가 제공하지 못했던 스트리트 뷰 이미지의 맥락과 지리적 특성을 실시간 대화형 인터페이스로 설명함으로써, 시각장애인이 가상 세계를 자유롭게 탐색하고 실제 경로를 미리 파악할 수 있도록 돕는 것이 이 기술의 핵심입니다. **사용자 중심의 직관적 내비게이션** * 키보드 화살표 키나 음성 명령을 사용하여 게임을 하듯 가상 공간 내 시점 전환 및 이동이 가능합니다. * 사용자가 시점을 회전할 때마다 현재 방위(예: "북동쪽을 보고 있습니다")와 정면에 랜드마크나 장소가 있는지를 음성으로 즉각 피드백합니다. * "가상 걸음(Virtual steps)" 기능을 통해 앞뒤로 이동하며 이동 거리와 도로 정보, 주변 상점 및 시설물에 대한 정보를 실시간으로 수신할 수 있습니다. **AI 디스크라이버(AI Describer)를 통한 상황별 맥락 인식** * 단순한 이미지 분석을 넘어 사용자의 위도·경도, 도로 데이터, 현재 시야의 스트리트 뷰 이미지를 결합해 맞춤형 설명을 생성합니다. * 보행 안전과 내비게이션 정보에 집중하는 '기본 모드'와 지역의 역사적·건축적 배경을 상세히 설명하는 '투어 가이드 모드'를 제공합니다. * 사용자가 현재 장면에서 궁금해할 만한 후속 질문(예: "저 건물의 입구는 어디인가요?")을 AI가 스스로 예측하여 제안함으로써 탐색의 효율성을 높였습니다. **AI 채팅과 강력한 세션 메모리 기능** * Gemini Multimodal Live API를 활용하여 사용자와 실시간 대화가 가능하며, 사용자의 질문에 맞춰 시각적 정보를 해석합니다. * 약 100만 토큰 이상의 긴 컨텍스트 윈도우를 활용해 사용자가 세션 동안 탐색한 모든 경로와 이미지를 기억합니다. * 이를 통해 "방금 지나온 버스 정류장에 벤치가 있었니?" 또는 "아까 본 편의점에서 여기까지 얼마나 떨어져 있어?"와 같은 과거의 맥락이 포함된 복합적인 질문에 정확히 답변할 수 있습니다. **사용자 평가 및 실무적 시사점** 11명의 시각장애인을 대상으로 한 연구 결과, 사용자들은 StreetReaderAI를 통해 목적지의 지형지물을 미리 확인하고 보행 경로를 계획하는 데 큰 도움을 얻었습니다. 이 기술은 수조 개의 스트리트 뷰 이미지를 텍스트 기반의 데이터로 변환할 필요 없이, 필요할 때마다 실시간으로 AI가 해석해 준다는 점에서 확장성이 매우 높습니다. 향후 이와 같은 멀티모달 AI 기술이 지도 앱에 통합된다면 시각장애인의 이동권과 정보 접근성을 획기적으로 개선할 수 있을 것입니다.

Snapseed의 인터 (새 탭에서 열림)

Google은 Snapseed의 새로운 '개체 브러시(Object Brush)' 기능을 통해 모바일 기기에서도 전문가 수준의 정교한 이미지 선택 및 편집을 가능하게 하는 실시간 온디바이스 세분화(Segmentation) 기술을 도입했습니다. 이 기술은 사용자의 간단한 터치나 선 그리기만으로 20ms 이내에 대상을 정확히 감지하며, MediaPipe와 LiteRT의 GPU 가속을 활용해 지연 없는 상호작용을 제공합니다. 이를 통해 복잡한 마스킹 작업 없이도 인물, 동물, 하늘 등 특정 객체만을 직관적으로 분리하여 보정할 수 있습니다. **온디바이스 기반의 실시간 대화형 분할** - 대화형 세분화 모델(Interactive Segmenter)을 탑재하여 사용자가 이미지 위의 객체를 탭하거나 선을 그으면 즉시 해당 대상을 선택합니다. - MediaPipe 프레임워크와 LiteRT의 GPU 가속을 통해 모바일 기기에서 모든 프로세스를 처리하며, 20ms 미만의 초저지연 성능을 달성했습니다. - 전경 프롬프트(선택하려는 부분)와 배경 프롬프트(제외하려는 부분)를 자유롭게 추가하거나 제거하며 실시간으로 마스크 영역을 정교하게 수정할 수 있습니다. **교사-학생(Teacher-Student) 학습을 통한 모델 최적화** - 범용적인 객체 인식을 위해 350개 이상의 카테고리에서 수집한 3만 개의 고품질 마스크 데이터를 기반으로 '교사 모델(Interactive Segmenter: Teacher)'을 먼저 학습시켰습니다. - 교사 모델은 정확도는 높지만 모바일에서 구동하기에는 너무 크고 느리기 때문에, 이를 경량화된 '에지 모델(Interactive Segmenter: Edge)'로 지식 증류(Knowledge Distillation)하는 과정을 거쳤습니다. - 약 200만 장 이상의 대규모 데이터셋을 활용하여 교사 모델이 생성한 고정밀 마스크를 에지 모델이 학습하게 함으로써, 작은 크기임에도 높은 교차 분석(IOU) 성능을 유지하도록 설계했습니다. **사용자 행동을 모사한 프롬프트 생성 기술** - 실제 사용자가 객체를 선택하는 방식(스크리블, 탭, 박스 지정 등)을 학습 단계에서 시뮬레이션하여 모델의 반응성을 높였습니다. - 객체 내부에는 전경 프롬프트(Scribbles)를, 외부에는 배경 프롬프트를 무작위로 생성하여 모델이 사용자의 의도를 정확히 파악하도록 훈련했습니다. - 올가미(Lasso) 선택 방식을 지원하기 위해 객체 주위에 박스 프롬프트를 노출하는 학습 과정을 병행하여 다양한 편집 시나리오에 대응합니다. 이 기술은 강력한 AI 모델과 직관적인 UI를 결합하여 모바일 사진 편집의 제약 사항이었던 정밀 선택 문제를 해결했습니다. iOS용 Snapseed의 '수정(Adjust)' 도구 내 개체 브러시를 통해 이 기술을 직접 경험해 볼 수 있으며, 빠르고 효율적인 온디바이스 AI의 실용적인 사례를 보여줍니다.

거대 모델에서 모바일의 마 (새 탭에서 열림)

YouTube는 지식 증류(Knowledge Distillation) 기술과 MediaPipe를 이용한 온디바이스 최적화 아키텍처를 통해 대규모 생성형 AI 모델을 모바일 환경에서 실시간으로 구현했습니다. 이 시스템은 거대 모델의 성능을 소형화된 학생 모델에 전이함으로써 사용자 정체성을 유지하면서도 초당 30프레임 이상의 속도로 카툰 스타일 변환 등의 복잡한 효과를 제공합니다. 결과적으로 유튜브 쇼츠 사용자들은 고성능 GPU 서버 없이도 자신의 기기에서 즉각적이고 고품질의 AI 효과를 경험할 수 있게 되었습니다. ### 고품질 데이터와 지식 증류 아키텍처 * **다양성을 고려한 데이터 구축**: 성별, 연령, 피부색(Monk Skin Tone Scale 기준) 등이 균형 있게 분포된 라이선스 기반 얼굴 데이터셋을 사용하여 모든 사용자에게 일관된 품질의 효과를 제공합니다. * **교사-학생(Teacher-Student) 모델**: StyleGAN2 또는 Google DeepMind의 Imagen과 같은 강력한 '교사 모델'이 시각적 효과를 생성하면, UNet 기반의 가벼운 '학생 모델'이 이를 학습합니다. * **모바일 최적화 백본**: 학생 모델은 모바일 기기에 최적화된 MobileNet 백본을 인코더와 디코더에 사용하여 연산 부담을 최소화하면서도 이미지 변환 효율을 높였습니다. ### 반복적 증류 프로세스와 최적화 * **데이터 생성 및 증강**: 교사 모델을 통해 수만 쌍의 '변환 전후' 이미지 쌍을 생성하며, 이때 AR 안경, 합성된 손에 의한 가려짐(occlusion) 등 다양한 증강 기법을 적용해 실제 촬영 환경에 대비합니다. * **복합 손실 함수 활용**: 학생 모델 학습 시 단순 수치적 정확도를 넘어 시각적 사실감을 높이기 위해 L1, LPIPS, 적응형(Adaptive) 및 적대적(Adversarial) 손실 함수를 조합하여 사용합니다. * **신경망 구조 탐색(NAS)**: 뉴럴 아키텍처 서치 기술을 통해 모델의 깊이와 너비를 조정하며 각 효과에 가장 최적화된 효율적인 구조를 자동으로 찾아냅니다. ### 사용자 정체성 보존을 위한 PTI 기술 * **인버전 문제(Inversion Problem) 해결**: 생성 모델이 이미지를 잠재 공간(Latent Space)으로 변환할 때 사용자 고유의 이목구비나 피부색이 왜곡되는 문제를 해결하기 위해 PTI(Pivotal Tuning Inversion)를 도입했습니다. * **개별 특성 학습**: 원본 이미지의 특징을 정확히 표현할 수 있도록 모델의 가중치를 미세 조정하여, 효과가 적용된 후에도 사용자가 누구인지 명확히 인식할 수 있도록 정체성을 유지합니다. * **일관성 유지**: 단순한 필터 적용이 아니라 프레임별로 정체성을 보존하며 전체적인 스타일을 재구성하여 자연스러운 변환 결과를 도출합니다. ### MediaPipe를 통한 실시간 온디바이스 실행 * **크로스 플랫폼 최적화**: Google의 MediaPipe 프레임워크를 활용하여 Android와 iOS 모두에서 동일하게 고성능 그래프 시뮬레이션을 실행합니다. * **하드웨어 가속**: TFLite와 GPU 가속(Vulkan, OpenGL, Metal)을 통해 모바일 기기의 하드웨어 성능을 극한으로 끌어올려 실시간 카메라 스트림 처리를 지원합니다. * **효율적인 파이프라인**: 입력 영상의 전처리부터 모델 추론, 최종 렌더링까지 이어지는 전체 공정을 모바일 GPU 내에서 완결하여 지연 시간을 최소화했습니다. 이 기술적 성과는 복잡한 생성형 AI를 클라우드 서버 없이 모바일 기기 자체에서 구동할 수 있음을 증명합니다. 개발자들은 MediaPipe와 같은 오픈소스 도구를 활용하여 유사한 온디바이스 AI 기능을 설계할 수 있으며, 특히 사용자 개인정보 보호와 실시간 응답성이 중요한 서비스에서 지식 증류와 PTI 기술은 핵심적인 해결책이 될 것입니다.

LY Corporation의 AI 기술의 현재, Tech-Verse 2025 후기 (새 탭에서 열림)

Tech-Verse 2025는 LY Corporation이 LINE과 Yahoo Japan의 통합 이후 선보인 AI 전략의 핵심과 실무적인 기술 성과를 집약적으로 보여준 행사였습니다. 이번 컨퍼런스에서는 단순한 기술 트렌드 나열을 넘어, RAG와 MCP 등 최신 AI 기술을 실제 서비스와 개발 환경에 적용하며 겪은 시행착오와 구체적인 해결 방안이 중점적으로 다뤄졌습니다. 특히 AI가 개발 프로세스 전체에 스며들어 생산성과 품질을 동시에 확보하는 기술적 내공이 강조되었습니다. **AI 기반 개발 생산성 혁신: Ark Developer** * 사내 개발자들을 위해 구축된 'Ark Developer'는 RAG 기반의 코드 어시스턴트로, 코드 자동 완성, 리뷰, 보안 확인, 테스트 코드 작성을 지원합니다. * 사내 문서를 스트리밍 형태로 실시간 참조하여 코드의 맥락에 맞는 정확한 도움을 제공하며, GitHub와 연동되어 PR 생성까지 자동화된 워크플로우를 보여줍니다. * 단순히 코드 베이스를 텍스트 뭉치로 취급하는 대신, 디렉토리 구조를 그래프 형태로 분석(Graph Analysis)하여 연관 코드를 더욱 정밀하게 참조하는 기술적 차별점을 갖췄습니다. * 실제 현업 개발자들 사이에서 기존의 범용 AI 도구보다 체감 성능이 뛰어나다는 평가를 받으며 개발 사이클 전반에 깊숙이 통합되어 활용되고 있습니다. **생성형 AI의 품질 측정과 정교한 평가 체계** * 주관성이 강한 이미지 생성 기술의 품질을 관리하기 위해 분포 기반의 FID(Fréchet Inception Distance), IS(Inception Score)와 같은 전통적 지표를 넘어 다각적인 평가 모델을 도입했습니다. * 미적 기준을 측정하는 Aesthetic Score, LLM 기반의 CLIP-IQA 및 Q-Align, 그리고 비디오-언어 모델을 활용한 VQA(Visual Question Answering) 방식 등 정밀한 정량 평가를 수행합니다. * 이미지 번역 및 인페인팅 서비스에서는 단순한 텍스트 변환을 넘어 원래의 레이아웃과 구조까지 자연스럽게 복원해야 하는 복합적인 과제를 생성형 AI로 해결하고 있습니다. * 생성형 AI 기술의 완성도는 단순히 모델을 구현하는 것에 그치지 않고, '어떻게 정답이 없는 결과를 객관적으로 검증하고 개선할 것인가'에 달려 있음을 시사합니다. **실무형 AI 도입을 위한 통찰** 이번 컨퍼런스는 LLM과 에이전트 기술이 실험실을 벗어나 실제 서비스의 품질을 결정짓는 성숙기에 접어들었음을 보여줍니다. 특히 생성형 AI 결과물에 대한 정량적 평가 지표를 수립하고, 코드 베이스를 그래프 구조로 분석하는 등의 구체적인 접근법은 AI 서비스를 고도화하려는 실무자들에게 매우 유용한 벤치마킹 사례가 될 것입니다. 단순한 기술 도입보다는 우리 조직의 데이터 구조와 서비스 특성에 맞는 '평가와 검증 체계'를 먼저 고민하는 것이 품질 높은 AI 서비스를 만드는 핵심입니다.

AI로 생성한 이미지는 어떻게 평가할까요? (인페인팅 적용편) (새 탭에서 열림)

배경 인물 제거(BPR) 기능을 구현하기 위해서는 사진의 빈 공간을 자연스럽게 채워주는 '인페인팅(Inpainting)' 기술의 선정이 핵심적이지만, 단순히 논문의 수치만으로는 실제 서비스 성능을 가늠하기 어렵습니다. 이를 해결하기 위해 LY Corporation 개발팀은 다양한 생성형 AI 모델과 평가 지표를 비교 분석하여, 실제 사람의 시각적 평가와 가장 유사한 결과를 도출하는 최적의 평가 체계를 구축하고자 했습니다. 결과적으로 고해상도와 큰 삭제 영역 등 실무적인 제약 조건을 반영한 자체 테스트를 통해 서비스에 가장 적합한 모델 선정 기준을 마련했습니다. **배경 인물 제거(BPR)의 3단계 프로세스** * **인스턴스 분할(Instance Segmentation):** 사진 속 각 픽셀이 어떤 객체(사람, 건물, 나무 등)에 속하는지 식별하여 개별적으로 인식합니다. * **주요 객체 탐지(Salient Object Detection):** 이미지에서 시선이 집중되는 메인 피사체와 제거 대상인 배경 인물을 픽셀 단위로 구분합니다. * **인페인팅(Inpainting) 수행:** 배경 인물이 제거된 빈 영역을 주변 환경과 조화롭게 재구성하여 채워 넣는 최종 단계로, 전체 결과물 품질에 가장 큰 영향을 미칩니다. **인페인팅 모델의 기술적 접근 방식** * **디퓨전(Diffusion) 계열:** 랜덤 노이즈에서 점진적으로 이미지를 복원하며, 복잡한 세부 사항을 자연스럽게 살리는 데 유리하지만 생성 속도가 상대적으로 느립니다. * **GAN(Generative Adversarial Network) 계열:** 생성자와 판별자가 경쟁하며 학습하는 구조로, 디퓨전 모델에 비해 이미지 생성 속도가 빠르다는 장점이 있습니다. * **성능의 가변성:** 저해상도나 좁은 영역에서는 대부분의 모델이 준수한 성능을 보이나, 고해상도 이미지에서 큰 영역을 삭제할 경우 모델별로 결과물의 품질 차이가 극명하게 발생합니다. **신뢰할 수 있는 인페인팅 모델 평가의 어려움** * **벤치마크의 한계:** 논문에서 제시하는 256x256 등 고정된 저해상도 지표는 실제 서비스의 고해상도 환경을 대변하지 못합니다. * **정답의 부재:** 이미지 생성은 하나의 정답이 존재하지 않으며, 다양한 결과물이 모두 정답이 될 수 있어 수치화된 평가가 복잡합니다. * **상황별 성능 변화:** 특정 테스트셋에서 우수한 모델이 다른 인페인팅 영역이나 데이터셋에서는 실망스러운 결과를 보여주는 경우가 빈번합니다. **실험을 통한 최적의 평가 방법 탐색** * **데이터셋 구성:** 품질 편차가 큰 10개의 이미지를 모은 'BPR 평가 데이터셋'과 표준인 'Places365'를 활용해 11개의 최신 인페인팅 모델(LaMa, HINT, FLUX.1 등)을 테스트했습니다. * **사용된 지표:** 단일 이미지 품질을 측정하는 Aesthetics score, CLIP-IQA, Q-Align과 모델 간 선호도를 비교하는 PickScore, ImageReward 등을 적용했습니다. * **최종 목표:** 사람이 직접 눈으로 평가하는 비용과 시간을 줄이면서도, 인간의 주관적 평가 결과와 가장 높은 상관관계를 갖는 자동화된 평가 지표를 찾는 데 집중했습니다. **성공적인 AI 기능을 위한 실용적 제언** 논문상의 지표(Metric)에만 의존하기보다는 실제 서비스가 적용될 환경(해상도, 객체 크기 등)과 유사한 자체 데이터셋을 구축하여 테스트해야 합니다. 특히 배경 인물 제거와 같이 시각적 자연스러움이 중요한 작업에서는 정량적 수치 너머의 '심미적 점수'를 반영할 수 있는 최신 생성형 AI 평가 방법론을 병행하여 모델을 검증하는 것이 필수적입니다.

AMIE, 시각을 (새 탭에서 열림)

구글 딥마인드가 텍스트를 넘어 이미지와 문서 등 멀티모달 정보를 통합하여 진단 대화를 수행하는 인공지능 에이전트 '멀티모달 AMIE'를 공개했습니다. 이 시스템은 제미나이 2.0 플래시(Gemini 2.0 Flash)를 기반으로 구축되었으며, 환자의 상태와 진단적 불확실성에 따라 지능적으로 정보를 요청하고 분석하는 능력을 갖췄습니다. 연구 결과, AMIE는 실제 의료 현장의 문진 과정을 효과적으로 모사하며 전문의에 필적하는 수준의 진단 및 관리 계획 수립 능력을 보여주었습니다. **상태 인지 기반의 추론 프레임워크와 문진 과정의 최적화** * AMIE는 실제 의사가 문진을 진행하는 방식과 유사하게 '병력 청취', '진단 및 관리', '사후 관리'의 3단계로 대화 흐름을 관리하는 '상태 인지 단계 전환 프레임워크'를 채택했습니다. * 모델의 내부 상태를 지속적으로 업데이트하여 환자에 대한 지식 격차와 진단적 불확실성을 실시간으로 추적합니다. * 특정 정보가 부족하다고 판단될 경우 피부 사진, 실험실 검사 결과, 심전도(ECG) 등 구체적인 멀티모달 자료를 환자에게 능동적으로 요청하고 이를 해석하여 진단을 정교화합니다. **시뮬레이션 환경 구축 및 전문가 평가를 통한 성능 검증** * SCIN(피부과) 및 PTB-XL(심전도)과 같은 실제 의료 데이터셋을 활용해 멀티모달 시나리오와 환자 에이전트를 생성하여 시스템을 훈련하고 평가할 수 있는 환경을 조성했습니다. * 전 세계 의료 교육에서 표준으로 사용되는 객관적 구조화 진료 시험(OSCE) 형식을 도입하여 1차 진료의(PCP)들과 AMIE의 성능을 비교 분석했습니다. * 평가 결과, AMIE는 다양한 임상 시나리오에서 의사들에 준하는 수준의 진단 정확도와 공감 능력을 보여주었으며, 복합적인 시각 데이터를 논리적으로 통합하는 역량을 입증했습니다. 이번 연구는 AI 에이전트가 단순한 대화 상대를 넘어 시각적 증거를 바탕으로 고도화된 임상적 추론을 수행할 수 있음을 보여줍니다. 향후 제미나이 2.5 플래시 등 최신 모델과의 결합을 통해 성능이 더욱 향상될 것으로 기대되며, 이는 의료진의 의사결정을 보조하고 원격 의료의 정확도를 높이는 혁신적인 도구가 될 것으로 전망됩니다.

지리 공간 추론 (새 탭에서 열림)

구글 리서치는 생성형 AI와 다중 파운데이션 모델을 결합하여 복잡한 지리 공간 문제를 해결하는 '지형 공간 추론(Geospatial Reasoning)' 연구 프레임워크를 공개했습니다. 이 시스템은 고해상도 원격 탐사 데이터, 인구 역학, 이동 경로 모델을 통합하여 전문 지식 없이도 자연어로 고차원적인 지리적 분석 결과를 도출할 수 있게 지원합니다. 이를 통해 재난 대응, 도시 계획, 기후 회복력 강화 등 다양한 분야에서 데이터 기반의 의사결정 속도를 획기적으로 높일 것으로 기대됩니다. **지형 공간 파운데이션 모델의 기술적 토대** * **원격 탐사 모델의 아키텍처**: Masked Autoencoders, SigLIP, MaMMUT, OWL-ViT 등 검증된 시각-언어 모델 구조를 원격 탐사 영역에 맞게 최적화하여 적용했습니다. * **다양한 데이터 학습**: 텍스트 설명과 바운딩 박스(Bounding Box) 주석이 포함된 고해상도 위성 및 항공 이미지를 대규모로 학습하여, 이미지와 객체에 대한 정교한 임베딩을 생성합니다. * **자연어 기반 제로샷(Zero-shot) 분류**: 별도의 추가 학습 없이 "태양광 패널이 있는 주거용 건물"이나 "통행 불가능한 도로"와 같은 자연어 검색만으로 특정 지형이나 시설을 찾아낼 수 있습니다. * **성능 검증 및 실전 투입**: 분류, 세그멘테이션, 객체 탐지 벤치마크에서 SOTA(최고 수준) 성능을 기록했으며, 구글의 실제 재난 대응 및 도시/농업 경관 매핑 프로젝트에서 그 효용성을 입증했습니다. **데이터 통합과 에이전트 기반 추론 프레임워크** * **다중 모델 결합**: 인구 행동과 환경의 상호작용을 분석하는 '인구 역학 파운데이션 모델(PDFM)'과 궤적 기반의 '모빌리티 모델'을 통합하여 다각적인 분석이 가능합니다. * **LLM 기반 에이전트 워크플로우**: Gemini와 같은 거대언어모델(LLM)이 복잡한 지리 공간 데이터를 관리하고 조율하는 에이전트 역할을 수행하여, 복잡한 분석 과정을 자동화합니다. * **인구 역학 데이터의 글로벌 확장**: 기존 미국 중심의 PDFM 데이터를 영국, 호주, 일본, 캐나다, 말라위 등으로 확장하여 전 세계적인 분석 기반을 마련 중입니다. * **산업 파트너십**: Airbus, Maxar, Planet Labs 등 글로벌 위성 데이터 기업들과 협력하여 실무 환경에서의 테스트를 진행하고 있습니다. 현재 구글은 '신뢰할 수 있는 테스터 프로그램'을 통해 해당 모델들에 대한 접근권을 제공하고 있습니다. 지리 공간 데이터 분석의 높은 진입 장벽을 낮추고자 하는 조직은 구글 리서치가 제공하는 파운데이션 모델 임베딩을 활용해 독자적인 분석 모델을 고도화하거나, 자연어 기반의 지형 추론 워크플로우를 실험적으로 도입해 보는 것을 권장합니다.