Redirects for AI Training enforces canonical content (새 탭에서 열림)
Cloudflare는 AI 학습용 크롤러가 HTML 내의 표준 태그(`canonical`)나 서비스 종료 안내문을 무시하고 구식 데이터를 수집하는 문제를 해결하기 위해 'AI 학습용 리다이렉트(Redirects for AI Training)' 기능을 출시했습니다. 이 기능은 유료 플랜 사용자가 클릭 한 번으로 기존의 표준 태그 정보를 활용해 AI 크롤러에게만 301 리다이렉트를 제공하도록 설정할 수 있게 합니다. 이를 통해 AI 모델이 최신 정보를 학습하도록 강제하고, 개발자 문서 등이 구버전 정보를 제공하는 오류를 방지할 수 있습니다. ### AI 크롤러의 기존 시그널 무시 문제 - 일반적인 검색 엔진과 달리 AI 학습 크롤러는 `noindex`나 HTML 내의 배너 메시지를 신뢰성 있게 준수하지 않으며, 구식 콘텐츠를 최신 콘텐츠와 동일한 비율로 수집하는 경향이 있습니다. - 이는 AI 모델이 더 이상 유효하지 않은 구버전의 명령어나 코드(예: Wrangler CLI의 구형 구문)를 학습하여 사용자에게 잘못된 답변을 제공하는 결과로 이어집니다. - `robots.txt`를 통한 단순 차단은 크롤러에게 어떤 것이 최신 정보인지 알려주지 못하므로, 학습 데이터의 공백을 만들 뿐 근본적인 해결책이 되지 못합니다. ### 표준 태그 기반의 301 리다이렉트 메커니즘 - 웹 페이지의 약 65~69%에 이미 존재하는 `<link rel="canonical">` 태그를 활용합니다. 이 태그는 해당 페이지의 권위 있는 최신 버전을 명시하는 표준 규약입니다. - Cloudflare의 '검증된 봇(verified bot)' 카테고리를 활용해 GPTBot, ClaudeBot과 같은 AI 학습 크롤러를 식별합니다. - 식별된 크롤러가 페이지에 접근하면 Cloudflare는 HTML 응답을 읽고, 표준 태그가 가리키는 URL이 현재와 다를 경우 즉시 '301 Moved Permanently' 응답을 반환하여 크롤러를 최신 페이지로 유도합니다. ### 관리의 효율성과 안전성 - 수동으로 수많은 리다이렉트 규칙(Redirect Rules)을 작성할 필요가 없어 관리가 용이하며, 콘텐츠가 업데이트될 때마다 자동으로 동기화됩니다. - 사람(Human), 검색 엔진 인덱서, AI 어시스턴트(AI Agents) 트래픽에는 영향을 주지 않고 오직 학습용 크롤러에게만 리다이렉트를 적용합니다. - 무한 루프를 방지하기 위해 자기 참조(Self-referencing) 태그는 무시하며, 도메인 통합에 주로 사용되는 교차 도메인(Cross-origin) 태그도 리다이렉트 대상에서 제외하여 안전성을 확보했습니다. ### Cloudflare의 실제 적용 사례와 효과 - Cloudflare의 자체 개발자 문서 사이트 조사 결과, 구버전 문서가 OpenAI, Anthropic 등에 의해 매달 수만 번씩 크롤링되고 있었으며, 이로 인해 AI가 구형 CLI 구문을 답변하는 문제가 발생했습니다. - 'AI 학습용 리다이렉트' 기능을 활성화한 결과, 7일 동안 AI 학습 크롤러의 모든 요청이 성공적으로 최신 페이지로 리다이렉트됨을 확인했습니다. - 이는 학습 파이프라인의 폐쇄적인 특성상 즉각적인 효과를 측정하기는 어렵지만, 크롤링 시점에 최신 정보를 제공함으로써 장기적으로 AI 모델의 답변 정확도를 높이는 토대가 됩니다. 웹사이트에 이미 `canonical` 태그가 설정되어 있다면, Cloudflare 대시보드(AI Crawl Control > Quick Actions)에서 이 기능을 활성화하는 것을 권장합니다. 별도의 복잡한 규칙 설정 없이도 AI 모델이 구식 정보를 학습하는 것을 방지하고 사용자에게 정확한 정보를 전달하는 가장 효율적인 방법입니다.