Robots.txt 生成器

可视化构建和测试您的 robots.txt 文件 — 无需编码

1配置规则

User-Agent:

Crawl-delay:

站点地图 URL

站点地图:

2robots.txt 输出

User-agent: *
Disallow:

URL 测试模拟器

什么是 robots.txt？

robots.txt 文件会告诉网络爬虫它们可以在您的网站访问哪些页面，哪些不能。它存在于您的域的根目录（例如 https://example.com/robots.txt），是爬虫在抓取之前首批检查的文件之一。虽然它不能强制遵守，但像 Google 和 Bing 这样的主要搜索引擎会尊重它的指令。

如何部署

生成并复制

使用上面的表单构建您的规则，然后单击“复制”以复制生成的文本。

创建文件

将内容保存为名为 robots.txt 的纯文本文件（不要更改文件扩展名）。

上传到根目录

将文件上传到您网站的根目录，使其可以通过 https://yourdomain.com/robots.txt 访问。对于 WordPress，通常由 Yoast 或 Rank Math 等 SEO 插件管理。

验证

在浏览器中打开 https://yourdomain.com/robots.txt 以确认可以访问。然后使用 Google Search Console → 设置 → 抓取 → robots.txt 进行验证。

指令解释

User-agent

指定规则适用于哪个爬虫。使用 * 表示所有爬虫，或使用特定的名称，例如 Googlebot，来指定目标规则。

Disallow

阻止爬虫访问指定的路径。Disallow: /admin/ 阻止 /admin/ 下的所有内容。值为空意味着没有被阻止的内容。

Allow

覆盖特定路径更广泛的 Disallow 规则。Allow: /admin/public/ 重新启用对被阻止的 /admin/ 目录的访问。

Sitemap

告诉爬虫 XML Sitemap 的位置。不与任何 User-agent 绑定 — 所有爬虫都会看到它。

Crawl-delay

请求爬虫在请求之间等待 N 秒。受 Bing 和 Yandex 的支持，但会被 Google 忽略（请改用 Google Search Console）。

Wildcards

使用 * 匹配任何字符序列，并使用 $ 匹配 URL 的结尾。示例：/*.pdf$ 将阻止所有的 PDF 文件。

最佳实践

✓ 始终包含指向 XML Sitemap 的 Sitemap 指令以便更快地被发现
✓ 不要使用 robots.txt 隐藏敏感内容 — 请改用身份验证或 noindex 标签
✓ 在部署更改之前，使用 Google Search Console 测试 robots.txt
✓ 小心使用 Disallow: / — 它会阻止整个站点被编入索引
✓ 使用特定的 User-agent 指令阻止 AI 抓取训练，而不影响搜索引擎爬虫
✓ 请记住 robots.txt 是公开的 — 不要将您不想被公开的隐私路径放进该文件

常见问题 (FAQ)

robots.txt 会防止页面出现在 Google 搜索中吗？

不一定。虽然 Disallow 阻止 Googlebot 抓取某页面，但如果有其他页面链接到它，Google 仍可能将该 URL 编入索引 — 只是不知道具体内容。若要完全防止收录，请改用 noindex meta 标签。

robots.txt 能屏蔽所有 AI 爬虫吗？

您可以通过添加特定 User-agent 规则来屏蔽已知的 AI 爬虫 (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider)。然而，并非所有 AI 爬虫都会表明身份，所以这并不能百分百保证。上面的“拦截 AI 爬虫”预设涵盖了主流的爬虫工具。

如果规则相互冲突会怎样？

当多条规则匹配同一 URL 时，最具体（最长）的规则生效。例如，如果您同时有 Disallow: /admin/ 和 Allow: /admin/public/，那么 /admin/public/ 路径将被允许，因为它更加具体。

Crawl-delay 对 Googlebot 有效吗？

无效。Google 完全忽略 Crawl-delay 指令。要控制 Google 的抓取速率，请使用 Google Search Console 中的抓取速率设置。Crawl-delay 目前仅受 Bing、Yandex 以及一些部分其他爬虫的支持。

我应该把 robots.txt 上传到哪里？

它必须位于您网站域名的根目录: https://example.com/robots.txt。将它放在类似于 (/pages/robots.txt) 这样的子目录中是不起效的。同时，每个子域名同样需要自己独立的 robots.txt 文件。