Robots.txt 生成器

可视化构建和测试您的 robots.txt 文件 — 无需编码

1配置规则

User-Agent:
|
Crawl-delay:

站点地图 URL

站点地图:

2robots.txt 输出

User-agent: *
Disallow: 

URL 测试模拟器

什么是 robots.txt?

robots.txt 文件会告诉网络爬虫它们可以在您的网站访问哪些页面,哪些不能。它存在于您的域的根目录(例如 https://example.com/robots.txt),是爬虫在抓取之前首批检查的文件之一。虽然它不能强制遵守,但像 Google 和 Bing 这样的主要搜索引擎会尊重它的指令。

如何部署

1

生成并复制

使用上面的表单构建您的规则,然后单击“复制”以复制生成的文本。

2

创建文件

将内容保存为名为 robots.txt 的纯文本文件(不要更改文件扩展名)。

3

上传到根目录

将文件上传到您网站的根目录,使其可以通过 https://yourdomain.com/robots.txt 访问。对于 WordPress,通常由 Yoast 或 Rank Math 等 SEO 插件管理。

4

验证

在浏览器中打开 https://yourdomain.com/robots.txt 以确认可以访问。然后使用 Google Search Console → 设置 → 抓取 → robots.txt 进行验证。

指令解释

User-agent

指定规则适用于哪个爬虫。使用 * 表示所有爬虫,或使用特定的名称,例如 Googlebot,来指定目标规则。

Disallow

阻止爬虫访问指定的路径。Disallow: /admin/ 阻止 /admin/ 下的所有内容。值为空意味着没有被阻止的内容。

Allow

覆盖特定路径更广泛的 Disallow 规则。Allow: /admin/public/ 重新启用对被阻止的 /admin/ 目录的访问。

Sitemap

告诉爬虫 XML Sitemap 的位置。不与任何 User-agent 绑定 — 所有爬虫都会看到它。

Crawl-delay

请求爬虫在请求之间等待 N 秒。受 Bing 和 Yandex 的支持,但会被 Google 忽略(请改用 Google Search Console)。

Wildcards

使用 * 匹配任何字符序列,并使用 $ 匹配 URL 的结尾。示例:/*.pdf$ 将阻止所有的 PDF 文件。

最佳实践

  • 始终包含指向 XML Sitemap 的 Sitemap 指令以便更快地被发现
  • 不要使用 robots.txt 隐藏敏感内容 — 请改用身份验证或 noindex 标签
  • 在部署更改之前,使用 Google Search Console 测试 robots.txt
  • 小心使用 Disallow: / — 它会阻止整个站点被编入索引
  • 使用特定的 User-agent 指令阻止 AI 抓取训练,而不影响搜索引擎爬虫
  • 请记住 robots.txt 是公开的 — 不要将您不想被公开的隐私路径放进该文件

常见问题 (FAQ)

robots.txt 会防止页面出现在 Google 搜索中吗?

不一定。虽然 Disallow 阻止 Googlebot 抓取某页面,但如果有其他页面链接到它,Google 仍可能将该 URL 编入索引 — 只是不知道具体内容。若要完全防止收录,请改用 noindex meta 标签。

robots.txt 能屏蔽所有 AI 爬虫吗?

您可以通过添加特定 User-agent 规则来屏蔽已知的 AI 爬虫 (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider)。然而,并非所有 AI 爬虫都会表明身份,所以这并不能百分百保证。上面的“拦截 AI 爬虫”预设涵盖了主流的爬虫工具。

如果规则相互冲突会怎样?

当多条规则匹配同一 URL 时,最具体(最长)的规则生效。例如,如果您同时有 Disallow: /admin/Allow: /admin/public/,那么 /admin/public/ 路径将被允许,因为它更加具体。

Crawl-delay 对 Googlebot 有效吗?

无效。Google 完全忽略 Crawl-delay 指令。要控制 Google 的抓取速率,请使用 Google Search Console 中的抓取速率设置。Crawl-delay 目前仅受 Bing、Yandex 以及一些部分其他爬虫的支持。

我应该把 robots.txt 上传到哪里?

它必须位于您网站域名的根目录: https://example.com/robots.txt。将它放在类似于 (/pages/robots.txt) 这样的子目录中是不起效的。同时,每个子域名同样需要自己独立的 robots.txt 文件。