ai-crawlers

3 개의 포스트

AI 시대를 위해 캐시를 재고하는 이유 (새 탭에서 열림)

AI 트래픽의 급격한 증가는 인간 사용자의 행동 패턴을 기반으로 설계된 기존 CDN 캐시 아키텍처에 큰 도전 과제를 던지고 있습니다. AI 크롤러와 에이전트는 일반적인 인간 사용자와 달리 웹사이트 전체를 순차적으로 스캔하거나 방대한 양의 '롱테일(비인기)' 콘텐츠를 집중적으로 요청하며, 이는 기존 캐시 적중률을 떨어뜨리고 원본 서버의 부하를 가중시키는 결과를 초래합니다. Cloudflare는 이러한 AI 시대의 독특한 데이터 접근 패턴에 대응하기 위해 CDN 캐시 설계의 근본적인 재검토가 필요하다고 주장합니다. ### AI 트래픽과 인간 트래픽의 차이점 * **높은 고유 URL 요청 비율:** AI 에이전트는 정보를 정제하고 정확도를 높이기 위해 반복적인 루핑(looping)을 수행하며, 이 과정에서 요청의 70~100%가 중복되지 않는 고유 URL로 구성됩니다. * **콘텐츠 접근의 광범위성:** 인기 페이지에 집중하는 인간과 달리, AI는 훈련 데이터 수집이나 검색 증강 생성(RAG)을 위해 기술 문서, 이미지, 블로그 등 웹사이트의 거의 모든 콘텐츠를 훑어갑니다. * **크롤링 비효율성:** AI 크롤러는 브라우저 측 캐싱이나 세션 관리를 제대로 활용하지 않으며, 독립적인 인스턴스를 여러 개 실행하여 동일한 콘텐츠를 중복 요청하거나 잘못된 URL 처리로 인해 많은 404 오류를 발생시키기도 합니다. ### 기존 캐시 알고리즘(LRU)의 한계와 영향 * **캐시 오염(Cache Churn):** 대규모 AI 스캔이 발생하면 인간 사용자가 자주 찾는 인기 콘텐츠가 캐시에서 밀려나고, 그 자리를 AI가 일회성으로 긁어가는 비인기 콘텐츠가 차지하게 됩니다. * **캐시 적중률(Hit Rate) 하락:** 가장 오래전에 사용된 데이터를 먼저 삭제하는 LRU(Least Recently Used) 알고리즘은 AI의 공격적인 스캔 패턴 아래에서 효율이 급격히 떨어지며, 이는 곧 캐시 미스 증가로 이어집니다. * **원본 서버 및 비용 부담:** 캐시 미스가 발생하면 모든 요청이 원본(Origin) 서버로 직접 전달되어 서버 부하가 커지고, 데이터 전송에 따른 이그레스(Egress) 비용이 상승하며 응답 속도는 느려집니다. ### AI 시대의 웹 운영을 위한 새로운 방향 * **운영자의 이분법적 선택:** 웹 운영자는 이제 자원 보호를 위해 AI 크롤러를 차단할 것인지, 아니면 AI 모델의 최신 정보를 유지하기 위해 이들을 수용할 것인지 선택해야 하는 상황에 놓여 있습니다. * **차세대 캐시 전략의 필요성:** 기존의 단순한 프리페칭(Prefetching)이나 캐시 만료 정책은 더 이상 유효하지 않으며, AI 에이전트의 반복적인 루핑과 롱테일 접근 패턴을 반영한 지능적인 캐시 설계가 필수적입니다. * **연구 및 협업:** Cloudflare는 ETH Zurich 연구진과 협력하여 AI 트래픽 패턴을 모델링하고, 이를 기반으로 CDN이 AI 시대에 어떻게 적응해야 할지에 대한 기술적 방향성을 제시하고 있습니다. 웹 운영자는 자신의 콘텐츠가 AI 검색 결과나 학습 데이터에 포함되기를 원한다면, AI 트래픽의 특성을 이해하고 이를 효율적으로 처리할 수 있는 도구를 도입해야 합니다. 단순히 트래픽을 차단하는 것을 넘어, 'Pay per crawl'과 같은 수익화 모델이나 AI 전용 캐시 계층을 고려하는 등 변화하는 환경에 맞춘 유연한 대응 전략이 권장됩니다.

에이전트를 위한 마크 (새 탭에서 열림)

웹 콘텐츠 소비의 주체가 인간에서 AI 에이전트로 이동함에 따라, 복잡한 HTML 대신 AI가 이해하기 쉬운 구조화된 데이터를 제공하는 것이 기업의 필수 과제가 되었습니다. 클라우드플레어(Cloudflare)는 이러한 변화에 발맞춰 기존의 HTML 페이지를 실시간으로 마크다운(Markdown)으로 변환해 주는 'Markdown for Agents' 기능을 출시했습니다. 이 서비스는 토큰 사용량을 획기적으로 줄여 AI 처리 효율을 높이고, 콘텐츠 제작자가 자신의 데이터가 AI 모델 학습 등에 어떻게 사용될지 제어할 수 있는 표준을 제시합니다. ### AI 최적화를 위한 마크다운의 효율성 * **토큰 절감:** HTML은 본문 내용 외에도 각종 `<div>` 태그, 네비게이션 바, 스크립트 등 무의미한 요소를 포함하고 있어 AI가 처리해야 할 토큰 양이 매우 많습니다. 마크다운으로 변환 시 HTML 대비 토큰 사용량을 약 80%까지 줄일 수 있어 비용 효율적입니다. * **의미적 명확성:** 마크다운은 구조가 명확하여 AI 에이전트가 별도의 복잡한 파싱 과정 없이도 콘텐츠의 핵심 정보를 정확하게 파악할 수 있도록 돕는 'AI 시스템의 공용어' 역할을 합니다. * **비용 및 복잡성 감소:** 기존에는 AI 파이프라인 내부에서 HTML을 마크다운으로 변환하는 추가 연산 과정이 필요했으나, 이를 네트워크 단에서 처리함으로써 전체적인 처리 속도를 높이고 복잡성을 제거합니다. ### 실시간 콘텐츠 협상 및 변환 기술 * **콘텐츠 협상(Content Negotiation):** 클라이언트는 HTTP 요청 헤더에 `Accept: text/markdown`을 포함하여 마크다운 형식을 요청할 수 있습니다. 클라우드플레어 네트워크는 이를 감지하여 원본 HTML을 즉석에서 마크다운으로 변환해 응답합니다. * **편리한 구현:** `curl` 명령어나 Cloudflare Workers의 TypeScript 코드를 통해 간단히 구현할 수 있으며, Claude Code나 OpenCode와 같은 주요 코딩 에이전트들은 이미 이러한 요청 방식을 채택하고 있습니다. * **토큰 정보 제공:** 응답 헤더에 `x-markdown-tokens`를 포함하여 변환된 문서의 예상 토큰 수를 전달합니다. 개발자는 이 값을 활용해 컨텍스트 윈도우 크기를 계산하거나 청킹(chunking) 전략을 세울 수 있습니다. ### 콘텐츠 시그널 정책을 통한 권한 제어 * **사용 권한 명시:** 변환된 응답에는 `Content-Signal: ai-train=yes, search=yes, ai-input=yes`와 같은 헤더가 포함됩니다. 이는 해당 콘텐츠가 AI 학습, 검색 결과 노출, 에이전트 입력값으로 사용될 수 있음을 명시적으로 허용하는 신호입니다. * **제어권 확보:** 향후 클라우드플레어는 비즈니스 요구에 맞춰 콘텐츠 제작자가 AI의 데이터 활용 범위를 세부적으로 정의할 수 있는 맞춤형 정책 설정 기능을 제공할 예정입니다. AI 에이전트가 웹을 탐색하는 주요 주체로 부상하는 시대에, 기업들은 단순한 SEO를 넘어 'AI를 위한 데이터 제공 최적화'를 고려해야 합니다. 클라우드플레어의 이번 기능을 통해 웹사이트 소유자는 별도의 인프라 변경 없이도 자신의 사이트를 AI 친화적인 환경으로 즉각 전환할 수 있으며, 이는 곧 AI 검색 및 에이전트 환경에서의 노출 경쟁력으로 이어질 것입니다.

휴먼 네이티브가 클 (새 탭에서 열림)

Cloudflare는 영국 기반의 AI 데이터 마켓플레이스인 Human Native를 인수하여 생성형 AI 시대에 걸맞은 새로운 인터넷 경제 모델 구축에 나섰습니다. 이번 인수를 통해 Cloudflare는 비정형 멀티미디어 콘텐츠를 고품질의 학습용 데이터로 변환하고, 창작자가 자신의 저작물에 대한 제어권과 공정한 보상을 받을 수 있는 기술적 토대를 강화할 예정입니다. 궁극적으로 양사는 무분별한 스크래핑 대신 투명하고 구조화된 데이터 거래 생태계를 조성하여 AI와 창작자가 공존하는 지속 가능한 인터넷 환경을 만드는 것을 목표로 합니다. **Human Native의 기술력과 고품질 데이터의 가치** * Human Native는 흩어져 있는 비정형 멀티미디어 콘텐츠를 AI가 이해하고 학습할 수 있는 고품질의 검색 가능한 데이터로 변환하는 데 특화되어 있습니다. * 데이터를 단순히 긁어모으는(Scraping) 대상이 아닌, 구조와 투명성, 존중이 필요한 자산(Asset)으로 취급합니다. * 실제로 영국의 한 비디오 AI 기업은 기존 학습 데이터를 폐기하고 Human Native를 통해 확보한 라이선스 기반의 고품질 데이터로 교체한 후 기술적 성능이 비약적으로 향상되는 결과를 얻었습니다. **위기에 처한 인터넷 경제 모델과 창작자의 권리** * 지난 30년 동안 인터넷은 '콘텐츠 제공과 트래픽 유입'이라는 교환 공식으로 유지되었으나, 최근 AI 봇의 무분별한 크롤링으로 인해 이 생태계가 위협받고 있습니다. * 실제 사람의 방문 대비 AI 크롤링 비율이 급증하면서 창작자들은 자신의 콘텐츠가 어떻게 사용되는지 알기 어려워졌습니다. * Cloudflare는 'AI Crawl Control'과 'Pay Per Crawl' 등의 도구를 통해 콘텐츠 소유자가 AI 시스템의 접근 여부와 시기, 그리고 직접적인 보상 여부를 스스로 결정할 수 있도록 지원합니다. **AI 개발자를 위한 차세대 데이터 인프라: AI Index** * 기존의 웹 크롤링은 엔지니어링 및 컴퓨팅 비용이 많이 들고 중복, 스팸, 저작권 위반 등 품질 제어가 어렵다는 단점이 있습니다. * Cloudflare는 무작위 크롤링 대신 '발행/구독(Pub/Sub)' 모델인 'AI Index'를 구축하고 있습니다. * 참여 웹사이트가 콘텐츠 변경 시 구조화된 업데이트를 노출하면, AI 개발자가 실시간으로 이를 구독하여 고품질의 데이터를 효율적으로 수급할 수 있는 방식입니다. **기계 간 거래를 위한 x402 및 경제적 토대 마련** * 기존 웹 결제 시스템은 인간 중심(카드 정보 입력, 클릭 등)으로 설계되어 자동화된 시스템 간의 대량 거래에는 부적합합니다. * Cloudflare는 Coinbase와 협력하여 기계 간(Machine-to-Machine) 거래를 지원하는 'x402 Foundation'을 설립하고 디지털 자산에 대한 새로운 결제 프로토콜을 개발 중입니다. * 이를 통해 콘텐츠 제공자와 AI 에이전트 간의 즉각적이고 투명한 경제적 거래가 가능해질 전망입니다. Cloudflare와 Human Native의 결합은 단순히 데이터를 모으는 기술을 넘어, AI 시대의 인터넷이 '개방성'과 '공정성'을 동시에 유지할 수 있는 제도적, 기술적 장치를 마련하는 중요한 이정표가 될 것입니다. 기업과 창작자들은 앞으로 AI Index와 같은 구조화된 데이터 전달 체계와 x402 기반의 자동 결제 모델을 통해 자신의 디지털 자산을 더 안전하게 보호하고 수익화할 수 있는 기회를 갖게 될 것입니다.