embeddings

6 개의 포스트

조류 데이터를 학습한 (새 탭에서 열림)

구글 딥마인드의 바이오어쿠스틱 파운데이션 모델인 Perch 2.0은 주로 조류와 육상 동물의 소리로 학습되었음에도 불구하고, 수중 환경의 고래 음향 분류 작업에서 탁월한 성능을 보여주었습니다. 이 모델은 직접적인 수중 데이터를 학습하지 않고도 전이 학습(Transfer Learning)을 통해 다양한 해양 생물 종과 생태형을 정밀하게 식별할 수 있음을 입증했습니다. 이는 대규모 데이터로 학습된 범용 모델이 물리적 환경이 전혀 다른 영역에서도 강력한 일반화 능력을 발휘할 수 있음을 시사하며, 해양 생태계 연구의 효율성을 획기적으로 높일 수 있는 가능성을 제시합니다. **전이 학습을 활용한 효율적인 음향 분류** * **임베딩 생성**: Perch 2.0과 같은 사전 학습된 모델은 복잡한 오디오 데이터를 '임베딩(Embedding)'이라고 불리는 작은 특징 배열로 압축합니다. * **저비용 모델 구축**: 대규모 신경망 전체를 처음부터 학습시키는 대신, 추출된 임베딩을 입력값으로 사용하는 단순한 로지스틱 회귀(Logistic Regression) 분류기만 추가하여 새로운 소리를 학습할 수 있습니다. * **자원 절약**: 이 방식은 연구자가 고성능 컴퓨팅 자원을 대량으로 소모하지 않고도 몇 개의 라벨링된 샘플(Few-shot)만으로 특정 해양 생물에 최적화된 맞춤형 분류기를 신속하게 만들 수 있게 해줍니다. **다양한 해양 데이터셋을 통한 성능 검증** * **평가 데이터셋**: 혹등고래, 대왕고래 등 발린고래류를 포함한 'NOAA PIPAN', 산호초의 생물학적 소음이 담긴 'ReefSet', 그리고 범고래의 세부 생태형(Ecotype)을 구분하는 'DCLDE' 데이터셋을 사용하여 모델을 평가했습니다. * **비교 모델**: 기존의 수중 전용 모델인 SurfPerch를 비롯하여 Perch 1.0, 조류 전용 모델인 BirdNet, 그리고 AVES 등 타사의 바이오어쿠스틱 모델들과 성능을 대조했습니다. * **분류 정확도**: Perch 2.0은 거의 모든 테스트 데이터셋과 샘플 수(4~32개) 조건에서 1위 혹은 2위의 AUC_ROC 점수를 기록하며, 수중 오디오로 학습된 모델들에 뒤지지 않거나 오히려 앞서는 성능을 보였습니다. **조류 모델이 수중 소리를 잘 식별하는 이유** * **일반화 능력**: 대규모의 다양한 데이터셋으로 학습된 거대 파운데이션 모델은 특정 종의 소리에 국한되지 않고 소리의 본질적인 패턴을 파악하는 능력이 뛰어납니다. * **음향적 유사성**: 조류의 지저귐과 고래의 노랫소리는 주파수나 구조적 측면에서 공통적인 특징을 공유하는 경우가 많아, 육상 동물 데이터로 구축된 특징 추출 메커니즘이 수중 환경에도 유효하게 작용합니다. * **연구 확장성**: 구글은 연구자들이 이 기술을 쉽게 활용할 수 있도록 Google Colab 튜토리얼을 제공하며, 이를 통해 NOAA의 수동 음향 데이터 아카이브를 활용한 맞춤형 고래 분류기 구축을 지원합니다. 해양 생물학 연구자들은 Perch 2.0의 임베딩 기능을 활용함으로써 방대한 수중 녹음 데이터에서 미지의 소리를 분류하는 시간을 단축할 수 있습니다. 특히 새롭게 발견된 '바이오트왱(Biotwang)'과 같은 정체불명의 소리를 식별하거나, 특정 지역의 범고래 하위 집단을 구분하는 정밀한 연구에 이 모델을 적극적으로 활용해 볼 것을 권장합니다.

행동 시퀀스 모델링 (새 탭에서 열림)

핀터레스트는 사용자의 오프사이트(offsite) 행동 이력을 분석하여 미래의 전환 가능성을 예측하는 행동 시퀀스 모델링(Behavioral Sequence Modeling)을 통해 광고 후보군 생성 시스템을 혁신했습니다. 이 시스템은 트랜스포머(Transformer) 기반의 투타워(Two-tower) 구조를 활용해 사용자별로 개인화된 광고주 및 상품을 추천하며, 이를 통해 광고의 관련성을 높이고 광고주 측면에서는 전환 비용(CPA)을 낮추는 성과를 거두었습니다. 결과적으로 수억 개의 상품 카탈로그 속에서 사용자의 진화하는 쇼핑 의도를 실시간으로 포착하여 정교한 광고 서빙이 가능해졌습니다. **광고주 상호작용 예측 모델 (Phase 1)** - 사용자가 과거에 조회, 구매, 장바구니에 담은 상품 시퀀스를 분석하여 다음에 상호작용할 가능성이 높은 광고주를 예측합니다. - 사용자 타워는 양방향 트랜스포머(Bidirectional Transformer)를 사용하여 이벤트 시퀀스를 인코딩하고, 광고주 타워는 MLP 레이어를 통해 광고주를 표현하는 투타워 구조를 채택했습니다. - 학습 시에는 체크아웃, 장바구니 담기, 가입 등을 양성(Positive) 샘플로 정의하고, 샘플링된 소프트맥스 손실(Sampled Softmax Loss)과 인기 항목에 대한 과도한 페널티를 방지하기 위한 Log-Q 편향 수정을 적용했습니다. - 오프라인 평가에서 200만 개의 광고주 임베딩을 대상으로 Recall@K를 측정하여 성능을 검증했으며, 온라인 실험 결과 전환수 증가와 CPA 감소라는 유의미한 비즈니스 지표 개선을 확인했습니다. **상품 단위(Item-level) 예측으로의 확장 (Phase 2)** - 광고주 단위를 넘어 특정 상품(Pin)을 직접 예측함으로써 더욱 깊이 있는 개인화와 효율적인 광고 전달 시스템을 구축했습니다. - 10억 개 이상의 방대한 상품 데이터를 처리하기 위해 핀터레스트 내부의 핀(Pin) 임베딩과 카탈로그 메타데이터를 통합하여 더욱 풍부한 상품 표현력을 확보했습니다. - 대규모 아이템 코퍼스를 다루기 위해 인배치 부정 샘플(In-batch negatives)과 2,000만 개의 무작위 샘플링된 핀을 혼합하여 대조 학습(Contrastive Learning)의 효과를 극대화했습니다. - 일 단위 추론 작업을 통해 최근 활동이 있는 사용자의 임베딩을 업데이트하고, 이를 온라인 피처 스토어에 게시하여 실시간 서빙 시스템에서 활용합니다. **서빙 플로우 및 성능 평가** - 오프라인 배치 워크플로우에서 예측된 상위 100개의 광고주/상품 리스트를 온라인 피처 스토어에 저장하고, 광고 요청 시 L1 랭커와 L2 랭커로 전달하여 최종 광고를 선정합니다. - 모델 성능은 단순 MLP 기반의 풀링(Max/Mean Pooling) 모델을 베이스라인으로 설정하고, 이보다 우수한 Recall@K 성능을 보이는 트랜스포머 모델을 최종 선택했습니다. - 아이템 단위 예측은 하위 단계의 랭킹 모델이 처리해야 할 후보군 수를 최적화함으로써 시스템의 확장성을 높이고 사용자 만족도를 증진시키는 역할을 합니다. 단순한 인구통계학적 타겟팅에서 벗어나 사용자의 실시간 행동 시퀀스를 반영하는 임베딩 기반 검색(Embedding-based Retrieval) 시스템을 구축하는 것이 대규모 커머스 플랫폼에서 광고 효율을 극대화하는 핵심 전략임을 보여줍니다. 특히 아이템 수가 기하급수적으로 늘어날수록 광고주 단위가 아닌 개별 상품 단위의 시퀀스 모델링이 필수적입니다.

AI 챗봇 사용 인사 (새 탭에서 열림)

Google Research가 발표한 'Urania' 프레임워크는 차분 프라이버시(Differential Privacy, DP)를 활용하여 사용자 대화의 비밀을 엄격하게 보호하면서도 AI 챗봇 사용 패턴에 대한 고차원적인 인사이트를 도출합니다. 기존의 휴리스틱한 개인정보 제거 방식과 달리, 이 모델은 수학적으로 증명된 프라이버시 보장을 제공하여 특정 개인의 데이터가 분석 결과에 노출되는 것을 원천적으로 차단합니다. 이를 통해 플랫폼 운영자는 프라이버시 침해 우려 없이 서비스 개선 및 안전 정책 준수를 위한 대규모 언어 모델(LLM) 사용 트렌드를 분석할 수 있습니다. **기존 방식의 한계와 수학적 프라이버시의 도입** * 기존의 CLIO와 같은 프레임워크는 LLM이 대화에서 개인식별정보(PII)를 스스로 제거하도록 유도하는 휴리스틱 방식에 의존하여, 모델 진화에 따른 보안 유지나 엄격한 감사가 어려웠습니다. * Urania는 차분 프라이버시의 '사후 처리(Post-processing)'와 '합성(Composition)' 속성을 활용하여, 파이프라인의 각 단계에서 발생하는 프라이버시 손실을 수학적 예산(ε) 내에서 관리합니다. * 이러한 접근법은 프롬프트 주입 공격(Prompt Injection)과 같은 위협으로부터 자유로우며, LLM이 원본 대화 내용을 직접 보지 못하게 설계되어 보안성을 극대화합니다. **3단계 데이터 보호 파이프라인 구성** * **DP 클러스터링**: 대화 내용을 수치적 임베딩으로 변환한 뒤, 특정 대화가 클러스터 중심에 과도한 영향을 미치지 않도록 제한하는 알고리즘을 사용하여 유사한 대화들을 그룹화합니다. * **DP 키워드 추출**: 클러스터 내에서 빈번하게 등장하는 키워드를 집계할 때 노이즈를 추가하는 히스토그램 메커니즘을 적용하여, 여러 사용자에게 공통된 키워드만 추출하고 고유한 민감 정보는 걸러냅니다. * LLM 가이드 선택: LLM이 대화별로 상위 5개 키워드를 생성하게 함. * DP TF-IDF: 단어 빈도와 문서 역빈도를 계산하여 가중치를 부여하는 전통적 방식의 DP 버전. * 사전 정의 목록 활용: 공개 데이터를 통해 구축된 키워드 후보군 중에서 LLM이 적합한 항목을 선택하게 함. * **LLM 기반 요약**: 요약 단계의 LLM은 원본 대화가 아닌 익명화된 '키워드 리스트'만을 입력받아 최종 인사이트를 생성하며, 이는 프라이버시 보존 결과물에 대한 안전한 사후 처리에 해당합니다. **프라이버시와 분석 유용성의 균형** * 성능 평가 결과, 프라이버시 보호 강도(낮은 ε 값)가 높을수록 요약의 구체성은 다소 하락하는 트레이드오프 관계가 관찰되었습니다. * 그럼에도 불구하고 Urania는 단순한 비공개 방식(Simple-CLIO)과 비교했을 때, 수학적 안전성을 담보하면서도 실무에 적용 가능한 수준의 고차원적 사용 패턴 요약을 제공함을 입증했습니다. * 이 프레임워크는 데이터 분석의 품질을 유지하면서도 사용자의 신뢰를 보장해야 하는 기술 기업들에게 표준화된 개인정보 보호 분석 가이드라인을 제시합니다. 조직에서 대규모 챗봇 데이터를 분석해야 한다면, 단순히 LLM의 필터링 능력에 의존하기보다 Urania와 같이 수학적으로 증명된 차분 프라이버시 파이프라인을 구축하는 것이 장기적인 보안 및 규제 대응 측면에서 권장됩니다.

피너 설문조사를 통한 (새 탭에서 열림)

핀터레스트는 클릭 중심의 단순한 사용자 반응을 넘어, 사용자가 진정으로 선호하는 고품질 콘텐츠를 추천하기 위해 직접적인 설문 기반의 머신러닝 모델을 도입했습니다. 이는 '클릭베이트'와 같은 저품질 콘텐츠의 확산을 막고, 사용자의 웰빙과 장기적인 만족도를 우선시하는 '사용자 제일주의(Put Pinners First)' 가치를 실현하기 위한 시도입니다. 결과적으로 설문 데이터를 학습한 모델을 통해 홈피드, 관련 핀, 검색 서비스 전반에서 추천 콘텐츠의 품질을 성공적으로 개선했습니다. **사용자 직접 피드백을 통한 시각적 품질 데이터 확보** - '이미지가 시각적으로 얼마나 즐거움을 주는가?'라는 질문으로 1~5점 척도의 인앱 설문을 실시하여 사용자의 주관적인 품질 인식을 데이터화했습니다. - 예술, 뷰티, DIY, 홈 데코, 패션 등 5가지 주요 카테고리(L1)에서 노출 수 가중치를 적용해 5,000개의 이미지를 선정했습니다. - 개별 사용자의 주관성과 오클릭에 따른 노이즈를 줄이기 위해 이미지당 최소 10명 이상의 응답을 확보하여 평균 점수를 산출했습니다. - 설문 결과, 홈 데코 카테고리가 전반적으로 높은 점수를 받았으며 예술 카테고리는 사용자 간 평가 편차가 가장 크게 나타나는 등 카테고리별 특성이 확인되었습니다. **시각적 품질 예측을 위한 머신러닝 모델링** - 이미지의 시각적·텍스트적 특성과 핀이 저장된 보드 간의 관계를 포함한 핀터레스트 내부 임베딩 기능을 모델의 피처로 활용했습니다. - 5,000개의 상대적으로 작은 데이터셋에서 과적합(Overfitting)을 방지하고 추론 속도 및 비용을 최적화하기 위해 92,000개의 파라미터만을 가진 단순한 완전 연결 신경망(Fully-connected NN) 구조를 채택했습니다. - 절대적인 점수를 예측하는 방식 대신, 두 이미지 중 어떤 것이 더 높은 평가를 받을지 예측하는 '쌍체 순위 지정(Pairwise ranking)' 기법을 적용해 학습 효율을 높였습니다. - 특히 학습 시 동일한 카테고리 내의 이미지만 비교하게 함으로써, 모델이 콘텐츠의 주제(Semantic)가 아닌 순수한 시각적 품질 차이에 집중하도록 설계했습니다. **실용적 인사이트 및 결론** 단순히 클릭률(CTR)과 같은 단기적인 인게이지먼트 지표에만 의존하는 추천 시스템은 장기적으로 콘텐츠의 질을 저하시킬 위험이 있습니다. 핀터레스트의 사례는 정제된 소규모 설문 데이터를 활용해 사용자의 의도를 모델링에 직접 반영함으로써, 비즈니스 지표와 사용자 만족도를 동시에 잡는 '윈-윈' 전략이 가능함을 보여줍니다. 품질에 대한 정의가 모호할수록 전문가의 라벨링보다는 실제 대중 사용자의 피드백을 수집하여 평균적인 인식을 학습시키는 것이 실질적인 추천 서비스 개선에 더 효과적일 수 있습니다.

구글 어스 AI: 파운데 (새 탭에서 열림)

구글 어스 AI(Google Earth AI)는 최신 제미나이(Gemini) 모델 기반의 추론 에이전트와 지리 공간 파운데이션 모델을 결합하여, 지구 규모의 복잡한 문제에 대해 실질적인 통찰을 제공하는 생태계입니다. 이 시스템은 위성 이미지, 인구 통계, 환경 데이터 등 서로 다른 영역의 정보를 통합 분석함으로써 기존 단일 모델로는 해결하기 어려웠던 교차 도메인 추론을 가능하게 합니다. 구글은 이를 통해 원격 탐사 및 인구 역학 분야에서 상태 최첨단(SOTA) 성능을 달성했으며, 구글 어스와 구글 클라우드를 통해 이러한 기능을 개발자와 기업에 확대 제공하고 있습니다. **원격 탐사 파운데이션 모델의 혁신** * 시각-언어 모델(VLM), 개방형 어휘 객체 탐지(Open-vocabulary detection), 적응형 비전 백본의 세 가지 핵심 기능을 통해 위성 이미지 분석 속도와 정확도를 대폭 향상했습니다. * 사용자는 "폭풍 후 침수된 모든 도로 찾기"와 같은 자연어 질의를 통해 고해상도 항공 이미지에서 즉각적이고 정확한 답변을 얻을 수 있습니다. * 텍스트 기반 이미지 검색 작업에서 기존 대비 평균 16% 이상의 성능 향상을 보였으며, 미학습 객체에 대한 제로샷(Zero-shot) 탐지 정확도는 기존 베이스라인 모델보다 2배 이상 높습니다. **인구 역학 및 모빌리티 AI 분석** * 인구 역학 파운데이션(Population Dynamics Foundations) 모델을 통해 사람과 장소 간의 복잡한 상호작용을 이해하고, 시간에 따른 인구 이동 및 활동 변화를 분석합니다. * 전 세계 17개국에 걸친 일관된 임베딩 데이터와 매월 업데이트되는 시계열 정보를 제공하여, 인구 밀도, 수목 피복도, 야간 조명 등 다양한 지표를 정밀하게 예측합니다. * 실제 활용 사례로 옥스퍼드 대학의 연구에 따르면, 브라질의 뎅기열 확산 예측 모델에 이 임베딩을 적용했을 때 12개월 장기 예측 정확도(R²)가 0.456에서 0.656으로 크게 개선되었습니다. **지능형 공간 추론 에이전트의 역할** * 제미나이 모델을 기반으로 하는 공간 추론 에이전트는 복잡하고 추상적인 질문을 단계별 실행 계획으로 분해하는 지능형 오케스트레이터 역할을 수행합니다. * 에이전트는 파운데이션 모델 호출, 방대한 데이터 저장소 쿼리, 지리 공간 분석 도구 활용 등을 직접 실행하며, 각 단계에서 도출된 결과를 종합하여 최종적인 해답을 제시합니다. * 예를 들어 "허리케인 상륙 가능성이 높은 지역과 가장 취약한 공동체는 어디인가?"라는 질문에 대해 이미지, 환경, 인구 데이터를 융합 분석하여 구체적인 대비책을 도출할 수 있습니다. 구글 어스 AI는 기후 변화 대응, 재난 관리, 도시 계획 등 전 지구적 과제를 해결하려는 기업과 연구자들에게 강력한 도구를 제공합니다. 현재 구글은 개발자와 기업 사용자를 대상으로 이 새로운 기능에 대한 접근 권한을 확대하고 있으므로, 고도화된 공간 데이터 분석이 필요한 조직은 구글 클라우드 및 구글 어스 AI 웹사이트를 통해 기술 도입을 검토할 것을 권장합니다.

지리공간 추론: 생성 (새 탭에서 열림)

구글 리서치는 생성형 AI와 다중 파운데이션 모델을 결합하여 복잡한 지리 공간 문제를 해결하는 '지형 공간 추론(Geospatial Reasoning)' 연구 프레임워크를 공개했습니다. 이 시스템은 고해상도 원격 탐사 데이터, 인구 역학, 이동 경로 모델을 통합하여 전문 지식 없이도 자연어로 고차원적인 지리적 분석 결과를 도출할 수 있게 지원합니다. 이를 통해 재난 대응, 도시 계획, 기후 회복력 강화 등 다양한 분야에서 데이터 기반의 의사결정 속도를 획기적으로 높일 것으로 기대됩니다. **지형 공간 파운데이션 모델의 기술적 토대** * **원격 탐사 모델의 아키텍처**: Masked Autoencoders, SigLIP, MaMMUT, OWL-ViT 등 검증된 시각-언어 모델 구조를 원격 탐사 영역에 맞게 최적화하여 적용했습니다. * **다양한 데이터 학습**: 텍스트 설명과 바운딩 박스(Bounding Box) 주석이 포함된 고해상도 위성 및 항공 이미지를 대규모로 학습하여, 이미지와 객체에 대한 정교한 임베딩을 생성합니다. * **자연어 기반 제로샷(Zero-shot) 분류**: 별도의 추가 학습 없이 "태양광 패널이 있는 주거용 건물"이나 "통행 불가능한 도로"와 같은 자연어 검색만으로 특정 지형이나 시설을 찾아낼 수 있습니다. * **성능 검증 및 실전 투입**: 분류, 세그멘테이션, 객체 탐지 벤치마크에서 SOTA(최고 수준) 성능을 기록했으며, 구글의 실제 재난 대응 및 도시/농업 경관 매핑 프로젝트에서 그 효용성을 입증했습니다. **데이터 통합과 에이전트 기반 추론 프레임워크** * **다중 모델 결합**: 인구 행동과 환경의 상호작용을 분석하는 '인구 역학 파운데이션 모델(PDFM)'과 궤적 기반의 '모빌리티 모델'을 통합하여 다각적인 분석이 가능합니다. * **LLM 기반 에이전트 워크플로우**: Gemini와 같은 거대언어모델(LLM)이 복잡한 지리 공간 데이터를 관리하고 조율하는 에이전트 역할을 수행하여, 복잡한 분석 과정을 자동화합니다. * **인구 역학 데이터의 글로벌 확장**: 기존 미국 중심의 PDFM 데이터를 영국, 호주, 일본, 캐나다, 말라위 등으로 확장하여 전 세계적인 분석 기반을 마련 중입니다. * **산업 파트너십**: Airbus, Maxar, Planet Labs 등 글로벌 위성 데이터 기업들과 협력하여 실무 환경에서의 테스트를 진행하고 있습니다. 현재 구글은 '신뢰할 수 있는 테스터 프로그램'을 통해 해당 모델들에 대한 접근권을 제공하고 있습니다. 지리 공간 데이터 분석의 높은 진입 장벽을 낮추고자 하는 조직은 구글 리서치가 제공하는 파운데이션 모델 임베딩을 활용해 독자적인 분석 모델을 고도화하거나, 자연어 기반의 지형 추론 워크플로우를 실험적으로 도입해 보는 것을 권장합니다.