2025.03.13 谷歌SEO教程 2 min read

技术SEO怎么做：抓取、索引、Canonical 与渲染排查清单

技术 SEO 的重点，是让 Google 顺畅发现、抓取、渲染并索引关键页面。本文按状态码、robots、sitemap、canonical 和 JS 渲染给出排查顺序。

技术SEO不是一堆神秘参数，也不是“只有程序员才看得懂”的优化工作。它本质上只回答一个问题：Google 能不能顺畅地发现、抓取、渲染、理解并索引你的网站页面。如果这条链路的任何一环出问题，内容再好，排名也很难稳定。

Google Search Central 在 Google Search technical requirements 和 Crawling and indexing 文档里把底层逻辑写得很清楚：页面要能返回正常状态码、包含可索引内容，并且没有被技术性地挡在 Google 之外。也就是说，技术SEO不是附属项，而是所有内容优化和结构优化的前提。

什么是技术SEO，它到底在解决什么

技术SEO，可以理解为“让搜索引擎顺利访问和理解网站的基础工程”。它和内容优化、外链建设不一样，主要负责的是底层通路是否正常。

对一个网站来说，技术SEO至少会影响这 4 件事：

页面发现。 Google 能不能找到你的重要 URL。
页面抓取。 Googlebot 能不能正常访问这些页面和关键资源。
页面理解。 Google 能不能看懂页面结构、规范版本和主要内容。
页面索引。 页面最终能不能进入索引并参与搜索结果展示。

如果你在 Search Console 里经常看到“已发现，尚未编入索引”“已抓取，尚未编入索引”“替代页（具有适当的规范标记）”这类状态，那问题多半已经不是“再多发几篇文章”，而是技术链路需要排查。

技术症状	看起来像什么	更该先查哪一层
页面能打开但不进索引	像内容不够长	抓取、canonical、noindex
部分页面突然掉量	像算法波动	模板、状态码、渲染输出
同主题页面互相打架	像关键词没选好	规范化与页面职责

第一步：先按 Google 的真实处理流程来看问题

技术SEO最容易混乱的地方，就是把很多问题混在一起。更稳的方式是按 Google 处理页面的顺序来判断：

发现 URL。
抓取 HTML 和关键资源。
渲染页面内容。
理解 canonical、元数据和主要正文。
决定是否进入索引。

Google 在 JavaScript SEO basics 里明确提到，Google 处理 JavaScript 页面时也遵循抓取、渲染、索引这条主线。也就是说，技术排查时不要一上来就谈“收录差”，而要先问：是没发现、抓不到、渲染不出来，还是被 canonical / noindex / 质量判断挡住了。

如果你需要一个更适合团队协作的拆法，Ahrefs 对技术 SEO 的分层解释很有参考价值。它把问题拆成 crawlability、indexability、renderability 三层，用来安排排查顺序很实用，不容易把所有报错堆进一张“大清单”。

第二步：先看状态码和可索引性，不要只看页面能不能打开

很多页面在浏览器里“看起来能打开”，但对 Google 来说并不一定是合格页面。Google 的技术要求文档首先强调的是：页面要返回成功状态码，并且有可索引内容。

这一步最容易出问题的地方有：

错误状态码。 例如真实不存在页面却返回 200，形成 soft 404。
被 noindex 排除。 页面能访问，但被明确要求不进入索引。
登录墙或权限限制。 用户能看，Googlebot 未必能看。
正文太弱或主要内容不可见。 页面有模板，但缺乏真正可索引的主体内容。

返回结果	对 Google 的含义	常见误判
200 + 正常正文	可进入后续抓取与理解	以为这就等于一定会收录
200 + 空内容/弱内容	可能被当成 soft 404	把“能打开”当成没问题
301/302 混乱	信号分流、路径变长	把重定向当长期兜底
noindex	明确不进索引	误以为 robots.txt 更有效

所以单页诊断时，优先看 Google Search Console 实操清单里的 URL Inspection，而不是只看浏览器或 `site:` 搜索结果。

第三步：robots.txt 管的是抓取，不是索引

这是技术SEO里最常见、也最容易被误用的点。Google 在 Introduction to robots.txt 里写得非常直接：robots.txt 主要用来控制爬虫访问，不是用来让页面“从 Google 消失”的机制。

这意味着：

一个被 robots.txt 禁抓的 URL，仍然可能因为外部链接而出现在搜索结果里。
如果你真正不想让页面出现在 Google，应该优先用 noindex 或权限控制。
如果重要的 CSS、JS、图片资源被误屏蔽，Google 可能就无法正确渲染页面。

Google 还在 How Google interprets the robots.txt specification 文档里说明了 `allow`、`disallow` 和 `sitemap` 的规则。实操里更重要的结论不是背语法，而是：robots.txt 只该阻止你不希望浪费抓取预算的内容，而不该误伤关键页面和关键资源。

第四步：sitemap 是提示重要 URL，不是收录保证

sitemap 的作用经常被高估。Google 在 Build and submit a sitemap 里强调，sitemap 是告诉搜索引擎你希望展示在搜索结果里的 canonical URL，但它并不保证这些 URL 一定会被抓取或收录。

更值得注意的是这几点：

只把你真正希望被搜索结果使用的 canonical URL 放进 sitemap。
不要把 noindex、重定向页、错误页和重复页塞进去。
大站点要注意 sitemap 的体积和拆分方式。
如果站内内链本来就很完整，sitemap 是加强发现效率，不是替代结构。

换句话说，sitemap 解决的是“告诉 Google 哪些 URL 值得看”，但它解决不了“页面质量不够、规范信号冲突、渲染失败”这些更深层的问题。

第五步：canonical 决定 Google 该认哪一个版本

技术SEO里另一个高频问题，是重复 URL 和规范页判断混乱。Google 在 What is canonicalization 文档里说明，canonicalization 本质上是在重复版本里选择代表 URL。

常见场景包括：

带参数和不带参数的 URL。
HTTP / HTTPS 或带不带 www 的历史版本。
分页、筛选、排序产生的大量近重复页。
同一内容被多个路径承接。

技术上真正危险的不是“存在重复页”本身，而是信号冲突。例如：

sitemap 提交的是 A，但 canonical 指向 B。
内链大量指向参数版，但你想让 Google 认无参数版。
页面自称 canonical，但又被重定向到别处。

一旦这些信号不一致，Google 就会自己选版本，而不是听你的。结果往往就是索引异常、页面分权和抓取浪费。

Moz 对 canonicalization 的解释很适合拿来做团队沟通，因为它讲清楚了一件常被忽略的事：canonical 只有在站内其他信号不打架时才最稳定。你一边 canonical 指向 A，一边 sitemap 推 B，一边内链又集中指向 C，这种情况本来就容易失控。

第六步：JavaScript 页面要重点检查“Google 最终看到什么”

如果网站用了大量 JS、前端组件或 SPA 架构，技术SEO的风险会更高。Google 在 JavaScript SEO 文档里已经明确说明：Google 会先抓取，再排队渲染，再基于渲染后的 HTML 做进一步理解和索引。

在实操层面，Search Engine Journal 对 JavaScript SEO 的排查思路也有参考价值。它的重点不是多讲概念，而是提醒你把渲染后的链接、标题、元数据和主内容当成真实检查对象，而不是只盯开发环境里那份源码。

这带来几个实操重点：

重要正文最好能在初始 HTML 或稳定渲染结果中被看到。
重要链接必须是可抓取的标准 <a href>，而不是只靠点击事件。
不要让 canonical、title、robots 等关键标签在渲染后产生冲突。
如果页面严重依赖客户端渲染，优先考虑 SSR、预渲染或更稳定的服务端输出。

很多“页面可访问但迟迟不稳定”的案例，问题根本不在正文写得不好，而在于 Google 渲染后的页面和你在浏览器里看到的版本并不完全一致。

第七步：结构化数据和页面元数据是“帮助理解”，不是补救一切

结构化数据、title、description、robots meta 等信号都属于页面理解层。Google 在 Introduction to structured data markup 里明确说，结构化数据可以给 Google 提供更明确的语义线索，并可能帮助页面获得更丰富的搜索展现。

但要注意两个边界：

结构化数据不能替代真实可见内容。
错误、空洞或和页面正文不一致的 structured data，价值很低，甚至会制造额外问题。

对于企业站来说，更务实的做法通常是：

先保证 title、description、canonical、robots 等基础元数据一致。
再补充合适的 JSON-LD，而不是乱上各种 schema 类型。
发布后用 Rich Results Test 和 URL Inspection 验证，而不是只看前端源代码。

第八步：技术SEO排查时，优先抓这 6 个高频问题

重要页面没有被正常发现或内链支持太弱。
robots.txt、noindex、canonical 信号互相打架。
返回码异常或 soft 404 太多。
JavaScript 渲染后正文、链接或元数据不完整。
sitemap 包含了不该提交的 URL，或漏掉重点 URL。
结构化数据、title、description 与页面任务不一致。

这 6 类问题解决得差不多，很多站点的索引稳定性和内容承接关系就会明显改善。它们比“再研究几个新技巧”更值得优先处理。

技术项	最该盯什么	不要怎么做
robots / noindex	是否真的拦住了该拦的页	用 robots.txt 代替移除策略
canonical	站内信号是否一致	把它当绝对命令
sitemap	是否只提交重要且可索引页面	把低价值变体也全塞进去
JS 渲染	主内容能否稳定出现在渲染后 HTML	把关键文本全交给客户端晚加载