ai-training

2 개의 포스트

AI 학습용 리다이렉트를 통한 표준 콘텐츠 강화 (새 탭에서 열림)

Cloudflare는 AI 학습용 크롤러가 HTML 내의 표준 태그(`canonical`)나 서비스 종료 안내문을 무시하고 구식 데이터를 수집하는 문제를 해결하기 위해 'AI 학습용 리다이렉트(Redirects for AI Training)' 기능을 출시했습니다. 이 기능은 유료 플랜 사용자가 클릭 한 번으로 기존의 표준 태그 정보를 활용해 AI 크롤러에게만 301 리다이렉트를 제공하도록 설정할 수 있게 합니다. 이를 통해 AI 모델이 최신 정보를 학습하도록 강제하고, 개발자 문서 등이 구버전 정보를 제공하는 오류를 방지할 수 있습니다. ### AI 크롤러의 기존 시그널 무시 문제 - 일반적인 검색 엔진과 달리 AI 학습 크롤러는 `noindex`나 HTML 내의 배너 메시지를 신뢰성 있게 준수하지 않으며, 구식 콘텐츠를 최신 콘텐츠와 동일한 비율로 수집하는 경향이 있습니다. - 이는 AI 모델이 더 이상 유효하지 않은 구버전의 명령어나 코드(예: Wrangler CLI의 구형 구문)를 학습하여 사용자에게 잘못된 답변을 제공하는 결과로 이어집니다. - `robots.txt`를 통한 단순 차단은 크롤러에게 어떤 것이 최신 정보인지 알려주지 못하므로, 학습 데이터의 공백을 만들 뿐 근본적인 해결책이 되지 못합니다. ### 표준 태그 기반의 301 리다이렉트 메커니즘 - 웹 페이지의 약 65~69%에 이미 존재하는 `<link rel="canonical">` 태그를 활용합니다. 이 태그는 해당 페이지의 권위 있는 최신 버전을 명시하는 표준 규약입니다. - Cloudflare의 '검증된 봇(verified bot)' 카테고리를 활용해 GPTBot, ClaudeBot과 같은 AI 학습 크롤러를 식별합니다. - 식별된 크롤러가 페이지에 접근하면 Cloudflare는 HTML 응답을 읽고, 표준 태그가 가리키는 URL이 현재와 다를 경우 즉시 '301 Moved Permanently' 응답을 반환하여 크롤러를 최신 페이지로 유도합니다. ### 관리의 효율성과 안전성 - 수동으로 수많은 리다이렉트 규칙(Redirect Rules)을 작성할 필요가 없어 관리가 용이하며, 콘텐츠가 업데이트될 때마다 자동으로 동기화됩니다. - 사람(Human), 검색 엔진 인덱서, AI 어시스턴트(AI Agents) 트래픽에는 영향을 주지 않고 오직 학습용 크롤러에게만 리다이렉트를 적용합니다. - 무한 루프를 방지하기 위해 자기 참조(Self-referencing) 태그는 무시하며, 도메인 통합에 주로 사용되는 교차 도메인(Cross-origin) 태그도 리다이렉트 대상에서 제외하여 안전성을 확보했습니다. ### Cloudflare의 실제 적용 사례와 효과 - Cloudflare의 자체 개발자 문서 사이트 조사 결과, 구버전 문서가 OpenAI, Anthropic 등에 의해 매달 수만 번씩 크롤링되고 있었으며, 이로 인해 AI가 구형 CLI 구문을 답변하는 문제가 발생했습니다. - 'AI 학습용 리다이렉트' 기능을 활성화한 결과, 7일 동안 AI 학습 크롤러의 모든 요청이 성공적으로 최신 페이지로 리다이렉트됨을 확인했습니다. - 이는 학습 파이프라인의 폐쇄적인 특성상 즉각적인 효과를 측정하기는 어렵지만, 크롤링 시점에 최신 정보를 제공함으로써 장기적으로 AI 모델의 답변 정확도를 높이는 토대가 됩니다. 웹사이트에 이미 `canonical` 태그가 설정되어 있다면, Cloudflare 대시보드(AI Crawl Control > Quick Actions)에서 이 기능을 활성화하는 것을 권장합니다. 별도의 복잡한 규칙 설정 없이도 AI 모델이 구식 정보를 학습하는 것을 방지하고 사용자에게 정확한 정보를 전달하는 가장 효율적인 방법입니다.

휴먼 네이티브가 클 (새 탭에서 열림)

Cloudflare는 영국 기반의 AI 데이터 마켓플레이스인 Human Native를 인수하여 생성형 AI 시대에 걸맞은 새로운 인터넷 경제 모델 구축에 나섰습니다. 이번 인수를 통해 Cloudflare는 비정형 멀티미디어 콘텐츠를 고품질의 학습용 데이터로 변환하고, 창작자가 자신의 저작물에 대한 제어권과 공정한 보상을 받을 수 있는 기술적 토대를 강화할 예정입니다. 궁극적으로 양사는 무분별한 스크래핑 대신 투명하고 구조화된 데이터 거래 생태계를 조성하여 AI와 창작자가 공존하는 지속 가능한 인터넷 환경을 만드는 것을 목표로 합니다. **Human Native의 기술력과 고품질 데이터의 가치** * Human Native는 흩어져 있는 비정형 멀티미디어 콘텐츠를 AI가 이해하고 학습할 수 있는 고품질의 검색 가능한 데이터로 변환하는 데 특화되어 있습니다. * 데이터를 단순히 긁어모으는(Scraping) 대상이 아닌, 구조와 투명성, 존중이 필요한 자산(Asset)으로 취급합니다. * 실제로 영국의 한 비디오 AI 기업은 기존 학습 데이터를 폐기하고 Human Native를 통해 확보한 라이선스 기반의 고품질 데이터로 교체한 후 기술적 성능이 비약적으로 향상되는 결과를 얻었습니다. **위기에 처한 인터넷 경제 모델과 창작자의 권리** * 지난 30년 동안 인터넷은 '콘텐츠 제공과 트래픽 유입'이라는 교환 공식으로 유지되었으나, 최근 AI 봇의 무분별한 크롤링으로 인해 이 생태계가 위협받고 있습니다. * 실제 사람의 방문 대비 AI 크롤링 비율이 급증하면서 창작자들은 자신의 콘텐츠가 어떻게 사용되는지 알기 어려워졌습니다. * Cloudflare는 'AI Crawl Control'과 'Pay Per Crawl' 등의 도구를 통해 콘텐츠 소유자가 AI 시스템의 접근 여부와 시기, 그리고 직접적인 보상 여부를 스스로 결정할 수 있도록 지원합니다. **AI 개발자를 위한 차세대 데이터 인프라: AI Index** * 기존의 웹 크롤링은 엔지니어링 및 컴퓨팅 비용이 많이 들고 중복, 스팸, 저작권 위반 등 품질 제어가 어렵다는 단점이 있습니다. * Cloudflare는 무작위 크롤링 대신 '발행/구독(Pub/Sub)' 모델인 'AI Index'를 구축하고 있습니다. * 참여 웹사이트가 콘텐츠 변경 시 구조화된 업데이트를 노출하면, AI 개발자가 실시간으로 이를 구독하여 고품질의 데이터를 효율적으로 수급할 수 있는 방식입니다. **기계 간 거래를 위한 x402 및 경제적 토대 마련** * 기존 웹 결제 시스템은 인간 중심(카드 정보 입력, 클릭 등)으로 설계되어 자동화된 시스템 간의 대량 거래에는 부적합합니다. * Cloudflare는 Coinbase와 협력하여 기계 간(Machine-to-Machine) 거래를 지원하는 'x402 Foundation'을 설립하고 디지털 자산에 대한 새로운 결제 프로토콜을 개발 중입니다. * 이를 통해 콘텐츠 제공자와 AI 에이전트 간의 즉각적이고 투명한 경제적 거래가 가능해질 전망입니다. Cloudflare와 Human Native의 결합은 단순히 데이터를 모으는 기술을 넘어, AI 시대의 인터넷이 '개방성'과 '공정성'을 동시에 유지할 수 있는 제도적, 기술적 장치를 마련하는 중요한 이정표가 될 것입니다. 기업과 창작자들은 앞으로 AI Index와 같은 구조화된 데이터 전달 체계와 x402 기반의 자동 결제 모델을 통해 자신의 디지털 자산을 더 안전하게 보호하고 수익화할 수 있는 기회를 갖게 될 것입니다.