robots.txt

2 개의 포스트

Introducing the Agent Readiness score. Check to see if your site is agent-ready (새 탭에서 열림)

웹 환경이 브라우저와 검색 엔진을 넘어 AI 에이전트 중심으로 진화함에 따라, 사이트가 AI 모델에 얼마나 최적화되어 있는지를 평가하는 새로운 기준이 필요해졌습니다. Cloudflare는 웹사이트의 AI 에이전트 대응 수준을 측정하고 개선 가이드를 제공하는 도구인 'isitagentready.com'과 관련 데이터셋을 공개했습니다. 이를 통해 사이트 소유자는 에이전트 전용 콘텐츠 제공 및 권한 제어 표준을 도입함으로써 AI 도구가 더 빠르고 저렴하게 정보를 처리할 수 있도록 최적화할 수 있습니다. **웹 사이트의 AI 에이전트 표준 도입 현황** * 전 세계 상위 20만 개 도메인을 분석한 결과, 대다수의 사이트가 여전히 전통적인 검색 엔진 크롤러 방식에 머물러 있어 에이전트 준비도가 낮은 것으로 나타났습니다. * `robots.txt`는 78%의 사이트가 보유하고 있으나, AI 에이전트 전용 규칙이나 AI 사용 선호도(Content Signals)를 명시한 곳은 4%에 불과합니다. * 에이전트가 HTML 대신 효율적인 마크다운 형식을 요청하는 '마크다운 콘텐츠 협상(Markdown content negotiation)' 도입률은 3.9% 수준입니다. * MCP(Model Context Protocol) 서버 카드나 API 카탈로그(RFC 9727)와 같은 최신 에이전트 상호작용 표준은 현재 도입 초기 단계로, 이를 선제적으로 도입하면 AI 에이전트 생태계에서 두각을 나타낼 수 있습니다. **에이전트 준비도 점수 측정 항목** * **발견 가능성(Discoverability):** `robots.txt`와 `sitemap.xml`은 물론, 에이전트가 HTML을 파싱하지 않고도 리소스를 즉시 찾을 수 있도록 HTTP 응답 헤더의 `Link` 헤더(RFC 8288) 활용 여부를 평가합니다. * **콘텐츠 접근성(Content Accessibility):** LLM이 읽기 쉬운 구조로 사이트 맵을 제공하는 `llms.txt`와 텍스트 기반의 마크다운 제공 여부를 확인합니다. 마크다운은 HTML 대비 토큰 사용량을 최대 80%까지 줄여 비용 절감과 응답 속도 향상에 기여합니다. * **봇 제어 및 권한(Bot Access Control):** AI 봇 전용 접근 규칙과 웹 봇 인증 방식이 올바르게 설정되어 있는지 체크합니다. * **에이전트 역량(Capabilities):** API 카탈로그, OAuth 서버 검색(RFC 8414), MCP 서버 카드 등 에이전트가 사이트의 기능을 직접 수행하는 데 필요한 기술 표준 준수 여부를 측정합니다. **실무적인 최적화 지원 및 도구 활용** * `isitagentready.com`은 구글 라이트하우스(Lighthouse)처럼 동작하며, 진단 결과에서 통과하지 못한 항목에 대해 코딩 에이전트에게 바로 입력할 수 있는 구현용 프롬프트를 제공합니다. * 이 도구 자체도 MCP 서버를 노출하고 있어, 사용자는 웹 인터페이스 없이도 에이전트를 통해 프로그래밍 방식으로 사이트 스캔을 수행할 수 있습니다. * Cloudflare는 자사 개발자 문서를 에이전트 친화적으로 개편하여 AI 도구가 문서를 참조할 때 발생하는 비용을 대폭 절감하고 답변의 정확도를 높이는 사례를 직접 증명하고 있습니다. 웹 사이트 운영자는 `isitagentready.com`을 통해 현재 사이트의 상태를 점검하고, 특히 토큰 비용 효율성이 높은 **마크다운 콘텐츠 협상**과 **API 카탈로그** 표준을 우선적으로 도입하는 것을 권장합니다. 이는 AI 에이전트가 사이트 정보를 더 정확하게 이해하고 사용자에게 전달하도록 만드는 가장 효과적인 방법입니다.

Redirects for AI Training enforces canonical content (새 탭에서 열림)

Cloudflare는 AI 학습용 크롤러가 HTML 내의 표준 태그(`canonical`)나 서비스 종료 안내문을 무시하고 구식 데이터를 수집하는 문제를 해결하기 위해 'AI 학습용 리다이렉트(Redirects for AI Training)' 기능을 출시했습니다. 이 기능은 유료 플랜 사용자가 클릭 한 번으로 기존의 표준 태그 정보를 활용해 AI 크롤러에게만 301 리다이렉트를 제공하도록 설정할 수 있게 합니다. 이를 통해 AI 모델이 최신 정보를 학습하도록 강제하고, 개발자 문서 등이 구버전 정보를 제공하는 오류를 방지할 수 있습니다. ### AI 크롤러의 기존 시그널 무시 문제 - 일반적인 검색 엔진과 달리 AI 학습 크롤러는 `noindex`나 HTML 내의 배너 메시지를 신뢰성 있게 준수하지 않으며, 구식 콘텐츠를 최신 콘텐츠와 동일한 비율로 수집하는 경향이 있습니다. - 이는 AI 모델이 더 이상 유효하지 않은 구버전의 명령어나 코드(예: Wrangler CLI의 구형 구문)를 학습하여 사용자에게 잘못된 답변을 제공하는 결과로 이어집니다. - `robots.txt`를 통한 단순 차단은 크롤러에게 어떤 것이 최신 정보인지 알려주지 못하므로, 학습 데이터의 공백을 만들 뿐 근본적인 해결책이 되지 못합니다. ### 표준 태그 기반의 301 리다이렉트 메커니즘 - 웹 페이지의 약 65~69%에 이미 존재하는 `<link rel="canonical">` 태그를 활용합니다. 이 태그는 해당 페이지의 권위 있는 최신 버전을 명시하는 표준 규약입니다. - Cloudflare의 '검증된 봇(verified bot)' 카테고리를 활용해 GPTBot, ClaudeBot과 같은 AI 학습 크롤러를 식별합니다. - 식별된 크롤러가 페이지에 접근하면 Cloudflare는 HTML 응답을 읽고, 표준 태그가 가리키는 URL이 현재와 다를 경우 즉시 '301 Moved Permanently' 응답을 반환하여 크롤러를 최신 페이지로 유도합니다. ### 관리의 효율성과 안전성 - 수동으로 수많은 리다이렉트 규칙(Redirect Rules)을 작성할 필요가 없어 관리가 용이하며, 콘텐츠가 업데이트될 때마다 자동으로 동기화됩니다. - 사람(Human), 검색 엔진 인덱서, AI 어시스턴트(AI Agents) 트래픽에는 영향을 주지 않고 오직 학습용 크롤러에게만 리다이렉트를 적용합니다. - 무한 루프를 방지하기 위해 자기 참조(Self-referencing) 태그는 무시하며, 도메인 통합에 주로 사용되는 교차 도메인(Cross-origin) 태그도 리다이렉트 대상에서 제외하여 안전성을 확보했습니다. ### Cloudflare의 실제 적용 사례와 효과 - Cloudflare의 자체 개발자 문서 사이트 조사 결과, 구버전 문서가 OpenAI, Anthropic 등에 의해 매달 수만 번씩 크롤링되고 있었으며, 이로 인해 AI가 구형 CLI 구문을 답변하는 문제가 발생했습니다. - 'AI 학습용 리다이렉트' 기능을 활성화한 결과, 7일 동안 AI 학습 크롤러의 모든 요청이 성공적으로 최신 페이지로 리다이렉트됨을 확인했습니다. - 이는 학습 파이프라인의 폐쇄적인 특성상 즉각적인 효과를 측정하기는 어렵지만, 크롤링 시점에 최신 정보를 제공함으로써 장기적으로 AI 모델의 답변 정확도를 높이는 토대가 됩니다. 웹사이트에 이미 `canonical` 태그가 설정되어 있다면, Cloudflare 대시보드(AI Crawl Control > Quick Actions)에서 이 기능을 활성화하는 것을 권장합니다. 별도의 복잡한 규칙 설정 없이도 AI 모델이 구식 정보를 학습하는 것을 방지하고 사용자에게 정확한 정보를 전달하는 가장 효율적인 방법입니다.