![图片[1]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110112455134.jpg/ztp)
做网站的朋友都知道,我们辛辛苦苦更新文章、调整排版,不仅仅是为了自己看,更是为了让别人能搜到我们。
过去十几年,大家只盯着一个目标:百度(境外就盯着谷歌)。为了让搜索引擎的“爬虫”机器人喜欢我们的网站,我们做了各种SEO优化。毕竟,以前大家有问题都去搜一下,搜到了就点进来看。
但现在,时代变了。
不管是写文案、查资料还是找代码,越来越多的人开始直接问 ChatGPT、Claude 或者 Gemini 这些AI工具。甚至谷歌现在的搜索结果里,也直接由AI给你总结好答案了。这意味着,除了传统的搜索爬虫,现在互联网上多了一群新访客——AI爬虫。
如果你的网站是用WordPress搭建的,搞清楚这群“新访客”是干嘛的,对你未来的流量至关重要。
什么是AI爬虫?它是来捣乱的吗?
简单来说,AI爬虫就是一群自动化的机器人,它们每天在互联网上溜达。和传统搜索引擎为了给你“排名”不同,AI爬虫的目的主要有两个:
- 来“上课”的:比如 OpenAI 的 GPTBot,它把全网的信息抓回去,用来训练大模型,让AI变得更聪明,懂的知识更多。
- 来“跑腿”的:比如你在 ChatGPT 里问“今天最新的iPhone价格是多少”,AI需要实时联网去查数据,这时候派出来的就是这种爬虫。
虽然听起来有点吓人,但它们大多时候只是想看看你写了什么。
为什么说WordPress和AI是“天生一对”?
你可能担心自己的网站不够高级,AI看不懂。其实,主题铺觉得完全不用担心,WordPress对于AI爬虫来说非常友好。
有些复杂的网站是用各种花哨的代码(比如JS)动态生成的,爬虫看起来很费劲。但WordPress不同,它生成的页面就像是一份已经排版打印好的报纸(HTML),爬虫一来,拿起来就能读,不需要费脑子去“渲染”或“解密”。
正是因为WordPress这种直来直去的性格,不管是谷歌还是ChatGPT,都能轻松读懂你的内容。这就是为什么在AI时代,WordPress依然是做内容最好的选择之一。但是你的WordPress网站会被AI“吃”掉吗?这里主题铺就专门介绍一下AI爬虫及其的屏蔽教程。
关键问题:我要不要让AI进来?
既然AI爬虫已经来了,很多站长就开始纠结:我是该把门关上,还是敞开大门?
现在业内有两种声音。一种是觉得“我的内容很宝贵,凭什么免费给你训练AI”,所以选择屏蔽;另一种则认为“AI是未来的流量入口,我得让它收录我,这样AI回答问题时才会提到我”。
据主题铺观察,目前绝大多数普通网站其实没必要太紧张,默认允许其实是更好的选择。
我们可以试着这样决定:
- 这些地方要关门:网站的登录页、购物车、后台管理页、或者你专门卖钱的付费课程内容。这些东西没必要让AI知道,也不安全。
- 这些地方要开门:你的博客文章、产品介绍、公开的教程。因为如果AI读到了这些,当用户问相关问题时,你的网站就有机会作为“参考来源”出现在AI的回答里,这可是高质量的流量啊。
如何控制 AI 爬虫对 WordPress 的访问
如果您不希望 AI 爬虫访问您的 WordPress 网站并扫描其内容,好消息是您可以重新夺回控制权。
以下是三种管理 WordPress 上 AI 爬虫访问的方法:
- 手动编辑您的
robots.txt文件。 - 使用插件为您处理。
- 使用 Cloudflare 的机器人保护功能。
我们来逐一介绍这三个选项。
选项 1:通过 robots.txt 手动阻止 AI 机器人
您的 `robots.txt` 文件会告诉机器人哪些部分可以爬取您的网站。大多数知名的 AI 机器人,如 OpenAI 的 GPTBot、Anthropic 的 Claude-Web 和 Google-Extended,都会遵守这些规则。
您可以完全阻止特定的机器人,允许它们完全访问,或限制对网站某些部分的访问。例如,要阻止所有内容,您可以将其添加到您的 robots.txt 文件中,尽管这对大多数网站不推荐:
User-agent: GPTBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Google-Extended
Disallow: /允许 OpenAI 的 GPTBot 完全访问:
User-agent: GPTBot
Disallow:仅阻止您网站的一部分区域被 OpenAI 的 GPTBot 访问。例如,您的登录页面,爬虫在其中没有价值:
User-agent: GPTBot
Disallow: /login/这种选择性阻止非常关键。像 /login、/checkout 或 /admin 这样的敏感路径不会帮助发现性,几乎总是应该被阻止。另一方面,产品页面、功能概览或您的帮助中心是让爬虫保持开放的好候选者,因为它们可以驱动引用和推荐。
您可以通过以下方式手动添加此 robots.txt 文件:
- 使用像 Yoast 工具 > 文件编辑器 这样的 SEO 插件。
- 使用像 WP File Manager 这样的文件管理器插件。
- 或者通过 FTP 直接在服务器上编辑你的
robots.txt文件。
选项 2:使用 WordPress 插件
如果你不习惯直接编辑 robots.txt 文件,或者想要一种更快、更安全的方式来管理 AI 搜索引擎爬虫的访问,插件可以通过几次点击为你完成这项工作。
Raptive Ads
Raptive Ads WordPress 插件 内置了阻止 AI 搜索引擎爬虫的功能:
- 你可以在插件的设置中直接切换要阻止的爬虫。
- 大多数 AI 机器人(如 GPTBot 和 Claude)默认被阻止。
- Google-Extended 默认不会被阻止,但如果你想要退出 Google 的 AI 训练,可以勾选该框。
使用此插件的一个主要好处是,阻止 Google-Extended 不会影响你在常规搜索结果中的 Google 排名或可见性 。
阻止 AI 爬虫
阻止 AI 爬虫插件 是专门为 WordPress 网站所有者提供更多控制权而构建的,以便他们能够更好地控制 AI 爬虫与其内容的交互。具体方法如下:
- 自动向您的网站
robots.txt添加正确的Disallow规则,阻止 75+种已知的 AI 爬虫。 - 无需配置。安装插件,进入设置 > 阅读 ,并勾选标有阻止 AI 爬虫的复选框。
- 轻量级且开源 ,定期从 GitHub 更新。
- 专为大多数 WordPress 安装设计,开箱即用。
《Block AI Crawlers》插件是阻止不需要的 AI 机器人访问您网站的一种简单方法,特别是如果您没有使用高级 SEO 插件 。
信息
如果您的 WordPress 网站使用物理 robots.txt 文件(而不是由 WordPress 生成的虚拟文件),这些插件将无法自动进行更改。在这种情况下,您需要手动添加条目。
选项 3:使用 Cloudflare 的一键 AI 机器人阻止器
如果你的 WordPress 网站使用 Cloudflare (很多网站都使用),你可以通过一个开关一次性阻止数十个已知的和未知的 AI 机器人 。
2024 年年中,Cloudflare 推出了一项专门的 AI 爬虫和抓取器 功能,即使是在免费计划中也可使用。这项功能不仅依赖于 robots.txt ,它可以在网络层面阻止机器人,即使是那些谎称自己身份的机器人。
您可以通过以下方式启用它:
- 登录到您的 Cloudflare 控制面板
- 前往 安全 > 设置
- 在按筛选 区域,选择机器人流量 。
- 找到机器人对抗模式 并将其开启。
![图片[2]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110111501739.png/ztp)
如果您使用的是付费 Cloudflare 套餐,您可以使用超级机器人对抗模式 ,这是机器人对抗模式的增强版,具有更高的灵活性。它基于相同的技术,但允许您选择如何处理不同类型的流量,并启用 JavaScript 检测以捕获无头浏览器、隐蔽的爬虫和其他恶意流量。
例如,您可以选择不屏蔽所有爬虫,而是配置该工具仅屏蔽“明确的自动化流量”,同时允许“经过验证的机器人”,例如搜索引擎爬虫:
![图片[3]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110111507217.png/ztp)
好了。Cloudflare 会自动阻止 AI 机器人的请求。
如果您想深入了解这些工具如何协同工作,包括 Bot Fight Mode、Super Bot Fight Mode 和定向挑战规则,主题铺就详细介绍一下。
如何使用Cloudflare屏蔽AI爬虫
将您的网站连接到 Cloudflare
如果您使用一些专业托管,托管您的 WordPress 网站,您已经受益于强大的 Cloudflare 集成 ,包括企业级性能和全球 CDN。但是,要访问高级安全工具,您需要连接您自己的 Cloudflare 账户。
一旦您的域名连接到 Cloudflare 并激活,您就准备好启用帮助保护您的网站免受不受欢迎的机器人和爬虫流量影响的功能,而不会影响真实访客。
启用机器战模式
一旦您的网站连接到 Cloudflare,开始过滤掉不需要的自动化流量的一种快速且有效的方法是启用 Bot fight mode。
这项免费的 Cloudflare 功能有助于检测和减轻可能爬取、抓取或使您的网站过载的已知机器人,即使它们试图伪装成人类访客。
要开启 Bot fight mode,请按照以下步骤操作:
- 从左侧菜单中,进入 Security > Settings。
- 在按筛选 区域,选择机器人流量 。
- 找到机器人对抗模式 并将其开启。
![图片[4]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110111515254.png/ztp)
激活后,因为 Cloudflare 在请求到达您的网站之前过滤了更多的非人类请求,所以访问量开始下降。
如果您使用的是付费 Cloudflare 套餐,您可以使用超级机器人对抗模式 ,这是机器人对抗模式的增强版,具有更高的灵活性。它基于相同的技术,但允许您选择如何处理不同类型的流量,并启用 JavaScript 检测以捕获无头浏览器、隐蔽的爬虫和其他恶意流量。
例如,您可以选择不阻止所有爬虫,而是配置该工具仅阻止“明确的自动化流量”,同时允许“经过验证的机器人”,例如搜索引擎爬虫:
![图片[5]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110111522534.png/ztp)
设置 JavaScript 和管理挑战
即使 Bot 战斗模式已启用,一些自动化爬虫或 AI 工具仍然可能绕过,尤其是那些模仿正常浏览行为的工具。
Cloudflare 的安全规则允许您以挑战的形式应用额外的保护措施,这些措施会在授予访问权限之前验证访客是人类。
您可以将 JS 挑战应用于整个站点,但对于大多数 WordPress 站点,最好将其用于目标路径,例如:
/wp-login.php(WordPress 登录页面)/xmlrpc.php(常见的机器人目标)/wp-admin/(管理区域)
添加 JavaScript 或管理挑战规则:
- 导航至 安全 > 安全规则 。
- 点击 创建规则 > 自定义规则 。
- 输入一个 规则名称 ;(例如,wp-login 的 JS 挑战 。
- 在 当传入请求匹配 下,配置:
- 字段: URI 路径
- 操作符: 包含
- 值:
/wp-login.php
![图片[6]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110111529379.png/ztp)
您可以通过点击编辑表达式来添加更多条件,然后可以添加如下表达式:
(http.host in {"example.com" "www.example.com"} and
starts_with(http.request.uri.path, "/wp-admin") and
not cf.client.bot and
not http.request.uri.path contains "/wp-admin/admin-ajax.php")上述示例针对 /wp-admin 区域,跳过已验证的机器人,并排除了 WordPress 插件使用的 AJAX 端点。
在然后采取行动下,选择以下之一:
- JavaScript 挑战 – 对每位访客运行浏览器测试。
- 管理挑战 – 让 Cloudflare 的 AI 根据行为和风险级别决定何时进行挑战。
最后,点击部署 以激活规则。如果您想先测试,请选择保存为草稿 。
监控结果
一旦您启用了 Bot fight 模式或设置了您自己的 Cloudflare 规则,确认您的更改是否生效以及自动流量是否被有效过滤是很重要的。
Cloudflare 和 MyKinsta 都提供分析工具,可以帮助您衡量影响。以下是它们如何一起使用的方法。
检查 Cloudflare 的安全分析
在您的 Cloudflare 仪表板中,进入 安全 > 分析 > 机器人分析。
![图片[7]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110111538969.png/ztp)
此视图清晰地展示了您的总网站流量中有多少是由人类生成的,有多少是由机器人生成的。
Cloudflare 基于模式、机器学习和行为信号为每个传入请求分配一个机器人分数。这些分数被分组为不同类型的流量,例如:
- 自动化 – 明确的非人类机器人。
- 可能是自动化的 – 可疑的、机器人般的请求(例如,无头浏览器或 AI 抓取器)。
- 可能是人类的 – 使用真实浏览器的普通访客。
- 已验证的机器人 – 合法的机器人(例如 Googlebot 或 PayPal)。
机器人分析 图表 实时显示这些类别。您可以使用过滤器(按国家、IP 地址、浏览器或操作系统)来识别大部分自动化流量来自哪里。
![图片[8]-你的WordPress网站会被AI“吃”掉吗?聊聊AI爬虫及屏蔽教程-主题铺](https://cdn.zhutipu.com/wp-content/uploads/2026/01/20260110111547942.png/ztp)
这对您的 WordPress 网站意味着什么
AI 爬虫现在已成为人们在线发现信息的一部分。这项技术是新的,规则仍在形成中,网站所有者正在决定他们想要公开多少内容。好消息是,WordPress 网站已经处于有利地位。因为 WordPress 输出完全渲染的 HTML,大多数 AI 爬虫可以清晰地解释你的内容,而无需特殊处理。真正的战略决策不是是否 AI 爬虫可以访问你的网站——而是多少访问有助于你的目标。
虽然现在有一些工具(比如Cloudflare)开始尝试“向AI收费”的模式,但那目前是大公司才玩得起的游戏。
对于我们大多数WordPress站长来说,策略其实很简单:拥抱变化,但留个心眼。
让AI爬虫看到你希望展示的内容,让它们成为你免费的宣传员;同时,保护好你的核心隐私数据。毕竟,在人人都在用AI提问的今天,如果AI都不认识你的网站,那可能就真的没人认识你了。
Cloudflare只是外网的防御,再配合自己站点的内部防御,那会将防御等级更上一层楼,比如配合网站的5秒盾设置。


















暂无评论内容