Robots、noindex、canonical、sitemap完整排查:索引问题先查哪个。
当前首页对手是谁
这类索引控制词的首页通常是Google官方文档、技术SEO博客和工具站。它们能排,是因为把robots、noindex、canonical、sitemap的作用边界讲清楚。
| 元素 | 控制什么 | 常见错误 |
|---|---|---|
| robots.txt | 抓取 | 误封重要目录 |
| noindex | 索引 | SEO插件误设 |
| canonical | 规范版本 | 指向错误URL |
| sitemap | 发现URL | 提交不规范URL |
| redirect | URL迁移 | 跳转链过长 |
诊断顺序
| 问题 | 先查 |
|---|---|
| 页面抓不到 | robots/服务器/WAF |
| 抓到不索引 | noindex/质量/canonical |
| 索引错URL | canonical/redirect |
| 新文发现慢 | sitemap/内链 |
| 重复URL多 | canonical/参数/分页 |
相关阅读
n
当前首页为什么强
Robots、noindex、canonical、sitemap这些词的首页通常是Google官方文档、技术SEO博客和工具站。它们能排,是因为把“抓取”和“索引”边界讲清楚。
很多SEO问题不是内容差,而是索引控制错了:robots挡住抓取,noindex挡住索引,canonical把权重指到别处,sitemap提交了错误URL。
四个概念边界表
| 元素 | 控制什么 | 不控制什么 |
|---|---|---|
| robots.txt | 是否允许抓取 | 不能阻止已知URL被索引展示 |
| noindex | 是否允许索引 | 不控制抓取频率 |
| canonical | 建议哪个URL为规范版本 | 不是强制命令 |
| sitemap | 帮助发现URL | 不保证收录 |
索引问题诊断顺序
| 现象 | 先查 | 再查 |
|---|---|---|
| URL无法抓取 | robots/WAF/服务器 | 日志和状态码 |
| 抓取了但不索引 | noindex/canonical/质量 | 内容和内链 |
| 索引了错误URL | canonical/redirect | 站内链接 |
| 新文发现慢 | sitemap/内链 | 抓取频率 |
| 重复URL多 | canonical/参数/分页 | 内容合并 |
常见误判
- robots禁止抓取不等于noindex。
- canonical不是绝对命令,内容和内链也会影响Google判断。
- sitemap提交成功不代表页面会收录。
- noindex页面长期存在于sitemap里会制造混乱。
- 改canonical前要确认页面是否真的重复。
相关阅读
n
结论:抓取、索引、规范化、发现URL是四件不同的事
Robots、noindex、canonical、sitemap不能混用。robots.txt主要控制抓取,noindex控制是否进入索引,canonical告诉Google哪个URL更应作为规范版本,sitemap帮助Google发现URL。索引问题排查的第一步,就是先判断问题卡在哪一层。
当前首页竞对之所以强,是因为它们把概念边界讲得很清楚。Google官方文档提供规则,技术SEO博客提供排查步骤,工具站提供检测入口。我们的文章要超过它们,需要把这四个概念放进同一个诊断流程里。
当前首页竞对是谁,为什么能排
| 主题 | 强竞对 | 排名原因 | 我们补强方向 |
|---|---|---|---|
| robots.txt | Google robots.txt docs | 官方解释抓取规则、语法和限制。 | 用中文讲清robots不能可靠阻止索引。 |
| noindex | Google block indexing docs | 明确noindex适用场景。 | 加入WordPress、标签页、低质页、合并页场景。 |
| canonical | Google canonical docs | 解释重复URL整合信号。 | 补充canonical不是强制命令、站内链接也会影响判断。 |
| sitemap | Google sitemap docs | 官方定义sitemap发现URL价值。 | 讲清“提交成功不等于收录”。 |
| 技术教程 | Ahrefs canonical tags guide | 有案例和实操解释。 | 组合索引排查顺序,适合站长直接执行。 |
四个工具的边界表
| 工具/标签 | 主要控制 | 不能解决 | 典型误用 |
|---|---|---|---|
| robots.txt | 搜索引擎是否允许抓取某些路径。 | 不能保证URL不出现在搜索结果。 | 用Disallow处理已经被索引的低质页面。 |
| meta noindex | 允许抓取但不允许索引该页面。 | 不能减少抓取压力。 | 把需要排名的文章误设noindex。 |
| canonical | 建议Google把重复信号集中到规范URL。 | 不能强制Google必须采用。 | 所有分页、筛选页都canonical到首页。 |
| XML sitemap | 帮助Google发现重要URL和更新时间。 | 不能保证收录和排名。 | 把noindex、404、重定向URL放进sitemap。 |
索引问题诊断顺序
| 现象 | 第一步 | 第二步 | 第三步 |
|---|---|---|---|
| URL抓取失败 | 检查robots.txt和服务器状态码。 | 检查WAF、防火墙、登录限制。 | 用GSC URL检查工具请求实时测试。 |
| 页面抓取但不收录 | 检查meta robots和X-Robots-Tag。 | 检查canonical是否指向别处。 | 评估内容质量、内链和重复度。 |
| Google选错规范页 | 检查canonical标签。 | 检查站内链接是否大量指向错误版本。 | 统一sitemap、内链、重定向信号。 |
| 新文章发现慢 | 检查sitemap是否包含URL。 | 检查首页、分类、相关文章是否有内链。 | 观察日志和GSC发现方式。 |
| 删掉的页面仍出现 | 确认是否返回404/410或noindex。 | 检查是否仍在sitemap和内链里。 | 等待重新抓取或提交移除。 |
WordPress最常见的索引坑
WordPress站点最常见的坑有四类:设置里勾选“建议搜索引擎不索引本站”、SEO插件给分类或文章设了noindex、缓存页面残留旧meta robots、sitemap里混入附件页、标签页、作者页、参数页。
如果站点曾经做过清理、noindex、旧文合并或迁移,必须用同一张表管理每个URL的最终状态:保留排名、合并跳转、noindex保留、404删除。没有URL级别的决策表,很容易边改边乱。
Canonical怎么判断是否合理
| 场景 | 建议canonical | 理由 |
|---|---|---|
| 完全重复页面 | 指向主版本 | 集中重复信号。 |
| 分页内容 | 通常自引用或按实际分页策略处理 | 不要简单全部指向第一页。 |
| 筛选参数页 | 有搜索价值则自引用,无价值则指主分类或noindex | 取决于是否有独立搜索需求。 |
| HTTP/HTTPS、www/非www | 统一到唯一规范版本 | 避免协议和主机名重复。 |
| 多语言页面 | 各语言自引用canonical,并配合hreflang | 不要把不同语言canonical到同一语言。 |
Sitemap质量检查清单
- 只放希望被索引的200状态URL。
- 不要放noindex页面、404页面、重定向URL和重复参数URL。
- lastmod应反映真实更新时间,不要每天伪更新全站。
- 文章、分类、产品可拆分为不同sitemap,便于GSC观察。
- 每次批量删除、合并、迁移后重新生成sitemap并清缓存。
常见误判
- 误判一:robots Disallow等于不收录。Google仍可能索引已知URL,只是不抓取内容。
- 误判二:canonical写了就一定生效。Google会综合内容相似度、内链、sitemap、重定向判断。
- 误判三:sitemap提交后就应该马上收录。sitemap只是发现线索,不是收录申请表。
- 误判四:noindex页面还能传递完整SEO价值。长期noindex页面不应承担核心内链枢纽角色。
- 误判五:索引少一定是技术错误。很多时候是内容重复、主题弱、内链弱。
执行清单
- 导出所有重要URL,标注状态码、robots、canonical、sitemap状态。
- 先修需要排名但被noindex、canonical错误、robots拦截的页面。
- 从sitemap移除noindex、404、重定向、低价值参数URL。
- 对重复页面做合并、canonical或noindex,而不是全部保留。
- 用GSC覆盖率和URL检查工具观察修复后的重新抓取。