2024.02.28 谷歌SEO教程 1 min read

robots.txt 怎么写:常见规则、误区与检查方法(2026)

robots.txt 管的是抓取,不是直接决定是否收录。本文围绕企业站常见目录、参数页和 WordPress 场景,整理 robots.txt 的写法、误区与检查方法。

📚 核心目录提取 (Table of Contents)

`robots.txt` 不是一个“屏蔽搜索结果”的开关,它的核心作用是告诉爬虫哪些路径不要抓,哪些路径可以抓。很多网站把它写错之后,最常见的问题不是更安全,而是把本来该抓取的内容挡住了,或者误以为“禁止抓取”等于“不会收录”。

如果你把 `robots.txt` 当成抓取管理文件来理解,很多问题就会简单得多:它影响的是抓取权限,不是索引结果本身,更不是网页安全方案。

什么是 robots.txt?

`robots.txt` 是放在网站根目录下的纯文本文件,常见地址是:

https://example.com/robots.txt

搜索引擎爬虫访问网站时,通常会先读取这个文件,判断哪些路径允许抓取、哪些路径不建议抓取。它基于 robots exclusion protocol 工作,主要用于抓取层面的管理。

robots.txt 解决的是什么问题?

它更适合处理这些场景:

它不适合解决这些问题:

如果页面已经被发现过,仅仅 `Disallow` 并不保证它一定不会出现在搜索结果里。真正涉及索引控制,通常要结合 `noindex` 或状态码处理,而不是只靠 `robots.txt`。

robots.txt 最常见的语法

User-agent

指定规则针对哪个爬虫。写 `*` 代表通用规则。

Disallow

表示不希望抓取的路径。

Allow

在更细的路径层级上允许抓取,常见于你禁止了大目录,但想放开其中某个资源时使用。

Sitemap

告诉爬虫站点地图在哪里。

一个很基础的例子:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap_index.xml

这类写法在 WordPress 站点里很常见。

什么时候该写 robots.txt,什么时候不该乱写?

适合认真配置的情况

不建议靠 robots.txt 硬控的情况

尤其是现在很多页面依赖前端资源渲染,如果把关键 CSS、JS 路径误拦住,搜索引擎看到的页面就可能不完整。这类问题通常会直接影响抓取理解和页面评估。

企业站里常见的 robots.txt 场景

1. 后台目录

WordPress 常见做法是限制 `/wp-admin/`,但放开 `admin-ajax.php`。这类路径本来就不需要作为公开内容被抓取。

2. 站内搜索页

如果站内搜索会生成大量重复结果页,这类 URL 往往不值得反复抓取。它们更适合从抓取层面做限制,再结合索引策略处理。

3. 参数页和筛选页

很多电商或目录型网站会因为参数组合产生大量重复 URL。这个时候 `robots.txt` 能帮你减少无效抓取,但是否要完全拦截,仍然要看页面是否有独立价值。

4. 测试目录和临时目录

如果这些目录只是内部使用,应该从上线流程和访问权限上先管好,再决定是否额外写入 `robots.txt`。

robots.txt 最容易犯的 7 个错误

错误 1:把它当作 noindex 用

这是最常见的误解。`Disallow` 是“不让抓”,不是“保证不收录”。如果页面已经被其他地方发现,仍可能以 URL 形式出现在结果中。

错误 2:误拦重要目录

有的网站一上来就把整个 `/blog/`、`/product/` 或 `/wp-content/` 都挡掉,结果搜索引擎连核心内容和资源都抓不到。

错误 3:规则写得过宽

比如你本来只想拦某个测试路径,却因为模式写得太宽,把一批正常页面也带进去了。规则越少越清楚越好。

错误 4:改完不测试

robots 规则一旦写错,影响通常是整片目录,不是单页小问题。上线前最好至少做一次路径核对。

错误 5:把敏感目录写进去当作“隐藏”

`robots.txt` 本身是公开的,别人完全可以直接访问。真正敏感的内容不该靠它保护。

错误 6:忘记写 Sitemap

这不一定致命,但如果站点地图已经稳定存在,顺手写进去通常更利于爬虫发现结构。

错误 7:和页面级规则互相打架

如果一边在 `robots.txt` 里阻止抓取,一边又希望搜索引擎读取页面里的 `noindex`,就会出现逻辑冲突。因为页面都抓不到,很多页面级信号也就无法读取。

WordPress 网站怎么处理更稳?

如果你用的是 WordPress,很多基础规则可以通过 SEO 插件或服务器配置辅助生成,但不要因为“插件会自动生成”就完全不检查。自动生成的规则只覆盖基础情况,不一定适合你的目录结构。

建议至少确认这几件事:

如果站点部署在 Cloudways 这类环境里,也一样要从实际 URL 结构出发看规则,而不是直接套模板。

怎么检查 robots.txt 是否写对了?

一个简单的检查顺序是:

  1. 直接打开 `域名/robots.txt`,确认线上文件是不是你以为的那份
  2. 抽查几类关键 URL:文章页、服务页、图片、JS、后台、参数页
  3. 确认你想限制的路径真的被限制了,你想放开的资源没有被误伤
  4. 去 Search Console 看抓取与索引反馈,留意是否出现资源受阻或页面无法抓取的问题

如果网站最近改过模板、迁移过服务器、换过缓存或 CDN,这一步尤其不能省。很多 `robots.txt` 问题不是写在 CMS 里,而是被部署流程或缓存层改掉了。

robots.txt 和 robots meta 有什么区别?

一句话区分:

两者不能混用。页面是否该保留在索引里,往往要配合robots meta、canonical、状态码和内链策略一起判断。

最后怎么理解 robots.txt 更准确?

把 `robots.txt` 理解成网站给爬虫的一份抓取路线说明,比把它理解成“封禁工具”更准确。它的价值不在于写得多复杂,而在于边界清楚:该抓的别挡,不该浪费资源的地方也别放任乱抓。

对于大多数企业站来说,`robots.txt` 只要把基础规则写对,再配合索引控制和页面结构治理,已经足够。真正麻烦的从来不是语法,而是没分清“抓取控制”和“索引控制”。

天问网络技术团队
专注外贸B2B独立站建设和谷歌SEO优化,专注于技术驱动的谷歌SEO和高转化独立站建设,官网持续稳健的自然搜索点击。

需要专业SEO优化服务?

让我们的技术团队帮您将知识落地执行,提升谷歌搜索排名。

免费获取SEO诊断
// 相关文章
2026.04.17
robots.txt、meta robots、X-Robots-Tag 怎么分工(2026)
robots meta 怎么设置:index、noindex 实操(2026)
2024.02.28
robots meta 怎么设置:index、noindex 实操(2026)
技术SEO怎么做:抓取、索引、Canonical 与渲染排查清单
2025.03.13
技术SEO怎么做:抓取、索引、Canonical 与渲染排查清单
🤖
TIANWEN_AI v1.0
💬 咨询
📚 SEO学习
▶ 你好!我是天问网络的AI助手。

你可以问我关于独立站建设、谷歌SEO优化、SEM广告投放的任何问题。

// 输入你的问题开始对话