information-retrieval

4 개의 포스트

* Option (새 탭에서 열림)

페이스북 릴스(Facebook Reels)는 단순한 '좋아요'나 시청 시간 같은 지표를 넘어, 사용자 피드백을 직접 활용하여 개인화된 추천 시스템의 성능을 대폭 개선했습니다. 새롭게 도입된 UTIS(User True Interest Survey) 모델은 사용자의 실제 관심사를 정밀하게 파악함으로써 니치(Niche)한 고품질 콘텐츠의 노출을 늘리고 사용자의 만족도와 유지율을 높이는 데 성공했습니다. 결과적으로 이번 연구는 암묵적인 행동 데이터와 명시적인 사용자 설문을 결합했을 때 추천 시스템의 장기적인 가치가 어떻게 극대화될 수 있는지를 보여줍니다. **기존 행동 지표의 한계와 진정한 관심사 측정** * 기존의 추천 시스템은 시청 시간이나 공유와 같은 행동 신호에 의존하지만, 이러한 데이터는 노이즈가 많고 사용자의 장기적인 만족도를 완전히 반영하지 못하는 한계가 있습니다. * 조사 결과, 기존의 휴리스틱 기반 관심사 파악 방식은 실제 사용자의 관심사를 식별하는 데 있어 정밀도가 48.3%에 불과한 것으로 나타났습니다. * 페이스북은 단순한 주제 정합성을 넘어 오디오, 제작 스타일, 분위기 등 사용자가 체감하는 다양한 차원을 측정하기 위해 대규모 실시간 설문을 피드 내에 도입했습니다. **UTIS(User True Interest Survey) 모델 프레임워크** * 매일 무작위로 선정된 사용자에게 "이 영상이 당신의 관심사와 얼마나 일치합니까?"라는 질문을 1~5점 척도로 제시하여 실시간 피드백을 수집합니다. * 수집된 설문 데이터는 노이즈를 줄이기 위해 이진화(Binarized) 처리를 거치며, 샘플링 편향을 보정하기 위해 가중치를 적용하여 학습 데이터셋으로 구축됩니다. * 메인 랭킹 모델의 예측값을 입력 피처로 사용하는 경량화된 '인지 레이어(Perception Layer)'를 설계하여, 희소한 설문 데이터를 전체 추천 시스템에 일반화할 수 있도록 구현했습니다. **추천 시스템 파이프라인으로의 통합** * **지연 단계 랭킹(Late Stage Ranking, LSR):** UTIS 모델의 점수를 최종 랭킹 공식의 추가 피처로 투입하여, 관심사 일치도가 높은 영상에는 가산점을 주고 낮은 영상은 순위를 낮추는 정밀 조정을 수행합니다. * **초기 단계 랭킹(Retrieval):** 설문 데이터를 집계하여 사용자의 진정한 관심사 프로필을 재구축하고, 이를 기반으로 후보군을 추출합니다. 또한 지식 증류(Knowledge Distillation) 기법을 활용해 LSR의 UTIS 예측값을 검색 모델 학습에 반영합니다. * 이러한 다단계 통합을 통해 단순 인기 기반의 저품질 콘텐츠 추천은 줄이고, 사용자 개인에게 최적화된 고품질 니치 콘텐츠의 비중을 높였습니다. **성과 및 실용적 함의** * UTIS 모델 도입 이후 리텐션(재방문율) 지표가 유의미하게 개선되었으며 좋아요, 공유, 팔로우와 같은 능동적 참여율도 상승했습니다. * 시청 시간만을 최적화할 때 발생할 수 있는 '저품질 대중 콘텐츠 도배' 문제를 해결하고, 장기적인 플랫폼 건강도를 높이는 결과를 얻었습니다. * 이번 사례는 대규모 추천 시스템을 운영할 때 사용자 행동 데이터(Implicit)와 직접적인 피드백(Explicit)을 결합한 '인지 모델'을 구축하는 것이 정교한 개인화를 위해 필수적임을 시사합니다.

엔터프라이즈 LLM 서비스 구축기 1: 컨텍스트 엔지니어링 (새 탭에서 열림)

대규모 엔터프라이즈 환경에서 LLM 서비스를 구축할 때는 정교한 지시어(프롬프트 엔지니어링)보다 AI에게 필요한 정보만 선별해 제공하는 '컨텍스트 엔지니어링'이 더욱 중요합니다. LY Corporation은 260개가 넘는 API와 방대한 문서를 다루는 클라우드 AI 어시스턴트를 개발하며, 컨텍스트의 양이 늘어날수록 모델의 추론 성능이 하락하고 환각 현상이 발생하는 문제를 확인했습니다. 이를 해결하기 위해 사용자의 의도에 맞춰 필요한 도구와 가이드라인만 실시간으로 주입하는 '점진적 공개' 전략과 시스템 프롬프트의 충돌을 방지하는 '모의 도구 메시지' 기법을 도입하여 성능과 정확도를 동시에 확보했습니다. ### 컨텍스트 과부하와 성능의 상관관계 * **정보량과 성능의 반비례**: 최신 LLM은 수십만 토큰의 컨텍스트 윈도우를 지원하지만, 입력 길이가 길어질수록 핵심 정보를 찾는 능력이 최대 85%까지 급격히 하락합니다. * **노이즈로 인한 판단력 저하**: 질문과 유사해 보이지만 실제로는 관계없는 정보(노이즈)가 섞이면 모델이 당당하게 가짜 정보를 생성하는 환각 현상이 빈번해집니다. * **토큰 소모 효율성**: LLM은 이전 대화를 기억하지 못하는 스테이트리스(stateless) 구조이므로, 대화가 길어지고 API의 JSON 응답이 누적되면 64K 토큰 정도의 용량은 순식간에 소모되어 비용과 성능에 악영향을 줍니다. ### 도구 선별을 통한 컨텍스트 절약 * **선별적 로드**: 260개의 모든 API 도구를 한 번에 컨텍스트에 올리지 않고, 사용자의 질문에서 제품군(예: Redis, Kubernetes)을 먼저 식별합니다. * **도구 최적화**: 사용자가 특정 제품에 대해 물을 때만 관련된 소수의 도구(API)만 선별하여 제공함으로써 모델의 인지 부하를 획기적으로 줄입니다. ### 응답 가이드라인과 점진적 공개 전략 * **상황별 지침 주입**: "리소스 변경 시 UI 안내 우선"과 같이 특정 조건에서만 필요한 운영 지침을 '응답 가이드라인'으로 정의하고, 질문의 성격에 따라 필요한 시점에만 선택적으로 로드합니다. * **시스템 프롬프트와 가이드라인의 분리**: 모든 상황에 적용되는 '대원칙'은 시스템 프롬프트에, 특정 상황의 '행동 절차'는 가이드라인에 배치하여 관리 효율을 높입니다. ### 모의 도구 메시지(ToolMessage)를 활용한 환각 방지 * **프롬프트 충돌 문제**: 새로운 가이드라인을 단순히 시스템 프롬프트 뒤에 추가할 경우, 모델이 기존의 대원칙(예: "반드시 검색 결과로만 답변하라")을 무시하고 가이드라인에만 매몰되어 환각을 일으키는 현상이 발생했습니다. * **도구 메시지 전략**: 가이드라인을 시스템 프롬프트에 넣는 대신, 마치 검색 도구를 실행해서 얻은 결과값인 것처럼 '도구 메시지(ToolMessage)' 형식으로 주입합니다. * **전략의 효과**: 이 방식을 통해 LLM은 시스템 프롬프트의 대원칙을 준수하면서도, 주입된 가이드라인을 도구로부터 얻은 최신 정보로 인식하여 훨씬 정확하고 일관된 답변을 생성하게 됩니다. 엔터프라이즈 LLM 서비스의 핵심은 모델의 지능을 믿고 모든 데이터를 던져주는 것이 아니라, 모델이 가장 똑똑하게 판단할 수 있도록 최적의 정보만 정교하게 큐레이션하여 전달하는 설계 능력에 있습니다. 특히 복잡한 비즈니스 로직이나 사내 고유 지식을 반영해야 할 때는 시스템 프롬프트를 비대하게 만드는 대신, 도구 메시지나 동적 컨텍스트 주입 기술을 활용해 모델의 판단 체계를 보호하는 것이 실질적인 해결책이 됩니다.

Speech-to-Retrieval ( (새 탭에서 열림)

구글 리서치는 기존의 음성-텍스트 변환 과정을 거치지 않고 음성에서 직접 정보를 찾아내는 새로운 음성 검색 엔진인 'Speech-to-Retrieval(S2R)'을 공개했습니다. 이 기술은 중간 단계인 텍스트 전사 과정에서 발생하는 오류 전파를 차단하여 검색의 속도와 신뢰성을 획기적으로 높인 것이 특징입니다. 결과적으로 사용자의 발화 의도를 더 정확하게 파악함으로써 기존 계단식(Cascade) 모델이 가진 한계를 극복하고 더 나은 검색 경험을 제공합니다. **기존 계단식 모델의 한계와 오류 전파** * 전통적인 음성 검색은 음성 인식(ASR)으로 목소리를 텍스트로 바꾼 뒤 이를 검색 엔진에 전달하는 '계단식 모델'을 사용해 왔습니다. * 이 방식은 ASR 단계에서 발생하는 미세한 소리 인식 오류가 검색 결과에 치명적인 영향을 미치는 '오류 전파(Error Propagation)' 문제에 취약합니다. * 예를 들어, 명화 "절규(The Scream)"를 검색했을 때 ASR이 이를 "Screen"으로 잘못 인식하면, 검색 엔진은 예술 작품이 아닌 스크린 페인팅 기술에 대한 엉뚱한 결과를 내놓게 됩니다. * 오디오를 하나의 텍스트 문자열로 압축하는 과정에서 문맥적 단서나 음향적 특성이 손실되는 '정보 손실' 문제도 주요한 한계로 지적됩니다. **S2R 모델의 혁신적 접근 방식** * S2R은 텍스트 전사 단계를 완전히 우회하여 음성 쿼리로부터 직접 검색 의도를 매핑하고 정보를 추출합니다. * 이는 "어떤 단어를 말했는가?"라는 질문에서 벗어나 "사용자가 찾고 있는 정보는 무엇인가?"라는 본질적인 질문에 집중하는 아키텍처의 전환을 의미합니다. * 텍스트 전사가 완벽하지 않더라도 음성 데이터 자체에 담긴 풍부한 정보를 활용하므로 검색의 정확도를 높일 수 있습니다. **성능 평가 및 데이터셋 공개** * 구글은 S2R의 성능을 평가하기 위해 17개 언어와 26개 지역의 음성 질문을 담은 'Simple Voice Questions(SVQ)' 데이터셋을 공개했습니다. * 실험 결과, 음성 인식 오류율(WER)이 낮다고 해서 반드시 검색 품질(MRR)이 높아지는 것은 아니며, 언어별로 전사 오류가 검색에 미치는 영향이 각기 다르다는 점이 확인되었습니다. * 현재의 실제 음성 인식 시스템(Cascade ASR)과 완벽한 텍스트를 가정한 시스템(Cascade Groundtruth) 사이에는 여전히 큰 성능 격차가 존재하며, S2R은 이 간극을 메우는 핵심 기술이 될 것으로 보입니다. 음성 검색의 미래는 단순한 전사(Transcription)를 넘어 직관적인 검색(Retrieval)으로 진화하고 있습니다. 개발자와 연구자들은 구글이 오픈소스로 공개한 SVQ 데이터셋을 활용해 다국어 환경에서의 검색 성능을 벤치마킹할 수 있으며, 특히 음성 인식률이 낮은 언어권에서 S2R 방식의 도입은 검색 품질을 개선하는 데 실질적인 도움이 될 것입니다.

MUVERA: 다중 벡터 검색 (새 탭에서 열림)

구글 리서치에서 발표한 MUVERA는 복잡한 멀티 벡터 검색(Multi-vector retrieval) 과정을 단일 벡터 기반의 최대 내적 탐색(MIPS) 문제로 변환하여 처리 속도를 혁신적으로 개선한 알고리즘입니다. 이 기술은 고정 차원 인코딩(FDE)을 통해 여러 개의 벡터 집합을 하나의 벡터로 압축함으로써, 멀티 벡터 모델의 높은 정확도를 유지하면서도 기존의 최적화된 단일 벡터 검색 인프라를 그대로 활용할 수 있게 해줍니다. **멀티 벡터 검색의 복잡성과 기존의 한계** * ColBERT와 같은 최신 멀티 벡터 모델은 텍스트의 각 토큰마다 별도의 임베딩을 생성하여 문맥을 정밀하게 파악하지만, 이는 처리해야 할 벡터의 양을 기하급수적으로 늘리는 결과를 초래합니다. * 멀티 벡터 간의 유사도를 측정할 때는 주로 챔퍼 유사도(Chamfer similarity)를 사용하는데, 이는 비선형적인 행렬 곱 연산이 필요하여 단일 벡터의 점곱(Dot-product) 연산보다 훨씬 많은 계산 자원을 소모합니다. * 기존의 효율적인 검색 알고리즘(공간 분할 기법 등)은 대개 단일 벡터에 최적화되어 있어, 복잡한 멀티 벡터 구조에서는 검색 속도가 데이터 규모에 비례해 느려지는 성능 병목 현상이 발생합니다. **고정 차원 인코딩(FDE)을 통한 효율화** * MUVERA의 핵심은 '고정 차원 인코딩(Fixed Dimensional Encoding, FDE)' 기술로, 여러 벡터로 구성된 데이터 포인트를 유사도 정보가 보존된 단일 벡터로 변환합니다. * 이 방식은 두 FDE 벡터 간의 내적 값이 원래 멀티 벡터 집합 간의 복잡한 유사도와 유사하도록 설계되어, 고차원적인 검색 문제를 단순한 벡터 비교 문제로 치환합니다. * 특히 이 변환 과정은 '데이터 무관(Data-oblivious)' 방식으로 작동하여 특정 데이터셋의 분포에 의존하지 않으므로, 데이터가 실시간으로 변하는 스트리밍 환경에서도 안정적으로 적용 가능합니다. **MUVERA의 3단계 검색 프로세스** * **FDE 생성 및 인덱싱**: 문서 내의 멀티 벡터 집합을 단일 FDE 벡터로 변환하고, 이를 표준 MIPS 솔버를 사용하여 인덱싱합니다. * **MIPS 기반 1차 검색**: 쿼리가 들어오면 쿼리의 FDE를 즉시 계산한 후, 최적화된 MIPS 알고리즘을 통해 수많은 데이터 중 유사도가 높은 후보군을 하위 선형 시간(Sublinear time) 내에 빠르게 추출합니다. * **재순위화(Re-ranking)**: 추출된 소수의 후보군에 대해서만 원래의 정밀한 챔퍼 유사도를 계산하여 최종 검색 결과의 순위를 조정함으로써 정확도를 극대화합니다. 멀티 벡터 모델의 높은 검색 품질을 원하면서도 기존 단일 벡터 검색 엔진의 속도와 효율성을 포기할 수 없는 환경이라면 MUVERA가 최적의 해결책이 될 수 있습니다. 기존 MIPS 인프라를 그대로 사용하면서 모델의 성능만 업그레이드할 수 있다는 점에서 시스템 확장성 측면의 이점이 매우 큽니다.