news 2026/5/9 11:54:14

AI 爬虫在吞噬你的过时文档——Cloudflare 用一个开关来解决这个问题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 爬虫在吞噬你的过时文档——Cloudflare 用一个开关来解决这个问题

你的文档加了废弃警告、noindex 标签、canonical 指向,AI 训练爬虫照样视而不见,把旧版本内容原原本本地吃进去。Cloudflare 推出了一个新功能,把"建议"变成"强制执行"。

一、问题的根源

Cloudflare 的 Wrangler CLI 在过去六年里发布了多个主要版本,旧版文档保留在线,带有废弃横幅、noindex 元标签,以及指向当前文档的 canonical 标签。每一个提示信号都在说同一件事:这些内容已经过时,请去别处查看。但 AI 训练爬虫不会可靠地遵从这些信号。

通过 AI Crawl Control 工具,Cloudflare 观察到,在过去 30 天内,属于 AI 爬虫分类的机器人访问了 developers.cloudflare.com 达 480 万次,它们消费废弃内容的频率与消费现行内容的频率相同。那些提示信号没有产生任何可测量的差异。

这个问题的危害是累积性的,因为 AI 助手并不总是实时抓取内容,它们依赖训练好的模型。当爬虫摄取了废弃文档,AI 助手就继承了过时的知识基础。


二、现有手段为什么不够用

警告横幅对爬虫无效

对于人类用户,带废弃警告的页面保持在线是有效的——人类会读到提示然后去别处。但 AI 训练爬虫摄取的是完整文本,有可能把横幅当成又一段普通段落来处理,即便警告清晰可见,它们仍然会返回数千次。

直接屏蔽会产生空洞

直接屏蔽会产生另一个问题:它制造了一个没有信号的空洞,爬虫无法从中得知应该去哪里学习正确的内容。

robots.txt 维护成本过高

robots.txt 的保护有限。随着自动化流量增长,针对每个爬虫、每个路径、每次内容更新来维护指令,需要大量的手动工作。爬虫真正需要的是明确的方向:“当前内容在这里。”


三、canonical 标签:已有的基础设施

<link rel="canonical">标签是定义在 RFC 6596 中的 HTML 元素,用于告知搜索引擎和自动化系统哪个 URL 是一个页面的权威版本。它已经存在于 65–69% 的网页上,并由 WordPress、Contentful 等平台自动生成。这套基础设施已经声明了你内容的当前版本是什么——Redirects for AI Training 的作用,就是把这个声明变成强制执行的行动。

简单说:canonical 标签你已经有了,缺的只是一个让 AI 爬虫必须遵从它的机制。


四、Redirects for AI Training 如何工作

两个核心输入

Redirects for AI Training 依赖两个输入:Cloudflare 的cf.verified_bot_category字段,以及已经存在于你 HTML 中的<link rel="canonical">标签。AI 爬虫分类涵盖了为 AI 模型训练而抓取的机器人,包括 GPTBot、ClaudeBot 和 Bytespider,与 AI 助手、AI 搜索等其他分类相互独立。

执行过程

当来自已验证 AI 爬虫的请求到达时,Cloudflare 读取响应 HTML。如果存在非自引用的 canonical 标签,Cloudflare 在返回响应之前向 canonical URL 发出301 Moved Permanently跳转。人类流量、搜索索引以及其他自动化流量完全不受影响。

以 GPTBot 请求一个废弃路径为例,交互过程如下:

# 请求 GET /durable-objects/api/legacy-kv-storage-api/ User-Agent: Mozilla/5.0 (compatible; GPTBot/1.1; +https://openai.com/gptbot) # 响应 HTTP/1.1 301 Moved Permanently Location: https://developers.cloudflare.com/durable-objects/api/sqlite-storage-api/

爬虫被直接引导到最新文档,旧页面内容从未进入训练数据。

明确的边界

这个功能不做以下事情:不会追溯性地修正已经被摄取的训练数据;不覆盖 AI 爬虫分类之外的未验证爬虫;不会重定向访问废弃页面的人类用户或 AI 助手;跨域 canonical 标签(指向不同域名的标签,通常用于域名整合)被排除在外;自引用 canonical 标签(指向自身 URL)也不会触发跳转,以避免循环。

为什么不直接写重定向规则

单条重定向规则可以按 User-Agent 字符串针对 AI 爬虫,对于只有少数几个已知废弃路径的站点确实可行。但无法扩展:每个新的废弃路径都需要修改规则,User-Agent 必须手动维护,还会占用可能用于活动 URL 或域名迁移的计划配额。重定向规则还是在手动重新编码 canonical 标签已经声明的内容,并且会随着内容变化而失去同步。


五、Cloudflare 自身踩过的坑

这不是假设的场景,Cloudflare 在自己身上发现了这个问题。

2026 年 3 月,Cloudflare 旧版 Workers 文档被 OpenAI 爬取约 46,000 次,被 Anthropic 爬取约 3,600 次,被 Meta 爬取约 1,700 次。

这些对废弃页面的爬取,可能就是为什么在 2026 年 4 月向某个主流 AI 助手询问"如何用 Wrangler CLI 写入 KV 值"时,它给出了过时的答案:kv:key put命令。而正确的语法(截至 2026 年 4 月)是wrangler kv key put,冒号语法在 Wrangler 3.60.0 中已被废弃。文档里写有废弃说明,但训练管道如何解读这些说明,目前并不清楚。

Cloudflare 在 developers.cloudflare.com 上启用了 Redirects for AI Training 并进行了测量。前七天内,所有带有非自引用 canonical 标签的页面,其 AI 训练爬虫请求 100% 被重定向,没有一次被提供废弃内容。


六、如何开启

操作路径极其简单:在 Cloudflare 控制台,进入任意域名,依次点击AI Crawl Control > Quick Actions > Redirects for AI Training,打开开关即可。

适用于所有付费 Cloudflare 计划,对站点已有的 canonical 标签无需做任何修改。


七、全网视角:Radar 响应状态码分析

Cloudflare 同时更新了 Radar 的 AI Insights 页面,新增了响应状态码分析,让人可以看到整个网络是如何回应 AI 爬虫的。

在整体流量分布中,约 70% 的请求获得了成功响应(200),10.1% 的请求被重定向(301、302)到其他 URL,3.7% 的请求是对不存在文件的请求(404),8.3% 的请求访问内容被屏蔽(403)。

在单个爬虫维度(以 GPTBot 为例),超过 80% 的请求被成功响应,4.7% 被重定向,约 6% 被屏蔽返回 403。

这个视角很有价值——它揭示了整个互联网正在如何真实地回应 AI 爬虫:哪些内容在被提供,哪些在被拦截,哪些在被重定向。你可以按行业、按爬取目的(训练 vs. 搜索 vs. 助手)进行筛选,观察不同类型爬虫的行为差异。


八、总结

这个功能解决的问题,用一句话概括就是:把"建议"变成"执行"。

noindex、canonical 标签、废弃横幅,这些都是建议性信号,面向人类设计,AI 爬虫不一定买账。Redirects for AI Training 把你已有的 canonical 标签基础设施直接转化为 HTTP 301 跳转,对经过验证的 AI 训练爬虫强制生效,不需要改一行代码,不需要维护任何规则列表,一个开关搞定。

这不能修复已经被吞进训练数据的过时内容,但它能从此刻起阻止更多废弃内容进入下一轮训练。随着模型重新训练和重新抓取,效果会逐渐体现出来。


原文链接:https://blog.cloudflare.com/ai-redirects/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 11:54:03

深智微IC华润微代理:MCU选型与工业控制方案推荐

【引言/痛点】工业可编程逻辑控制器&#xff08;PLC&#xff09;的主控MCU选型&#xff0c;常让工程师在“性能冗余”与“成本控制”之间反复权衡。一个典型的中端PLC需要同时处理Modbus RTU通信、高速计数器输入、多路ADC采样以及实时逻辑控制&#xff0c;这对MCU的内核性能、…

作者头像 李华
网站建设 2026/5/9 11:47:34

CANN NPU推理运行时错误诊断

【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体&#xff0c;本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills name: model-infer-runtime-debug description: 基于 PyTorch 框架的昇…

作者头像 李华
网站建设 2026/5/9 11:47:33

NPU平台DeepSeek-V3.2推理

DeepSeek-V3.2-Exp Inference on NPU 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法&#xff0c;提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 概述 DeepSeek团队发布了最新的模…

作者头像 李华
网站建设 2026/5/9 11:46:50

CANN/ge函数处理点API

FuncProcessPoint 【免费下载链接】ge GE&#xff08;Graph Engine&#xff09;是面向昇腾的图编译器和执行器&#xff0c;提供了计算图优化、多流并行、内存复用和模型下沉等技术手段&#xff0c;加速模型执行效率&#xff0c;减少模型内存占用。 GE 提供对 PyTorch、TensorFl…

作者头像 李华