Sitemap 优化
8.1 Sitemap在AI时代的新角色
传统上,Sitemap是给Google和Bing的”页面目录”。在AI代理时代,Sitemap的角色扩展了:- 传统搜索引擎: 发现新页面 → 建立索引 → 搜索结果
- AI代理: 发现新页面 → 提取结构化数据 → 商品推荐
8.2 Sitemap基础格式
标准的XML Sitemap格式(sitemaps.org 规范):8.3 Sitemap Index:分片策略
当你的网站有大量页面时,需要使用Sitemap Index将多个Sitemap分片管理:- 每个Sitemap文件最多 50,000个URL 或 50MB
- 按内容类型分片:商品、分类、文章、政策页面各一个Sitemap
- 商品数量超过50,000时,按字母或分类进一步分片
8.4 电商Sitemap最佳实践
商品页面Sitemap
电商网站最重要的Sitemap是商品页面。优化要点:lastmod必须准确: 当商品价格、库存、描述变化时更新此字段。AI爬虫会根据这个判断是否需要重新抓取priority分层设置:- 热门商品 / 新品:
0.9 - 普通在售商品:
0.7-0.8 - 下架但保留页面的商品:
0.3
- 热门商品 / 新品:
- 只包含可访问的URL: 404页面、重定向页面不要放进Sitemap
- URL规范化: 每个商品只有一个标准URL(避免带参数的重复URL)
分类页面Sitemap
分类页面帮助AI代理理解你的商品结构:政策页面
隐私政策、退货政策等页面也应包含在Sitemap中:8.5 动态Sitemap生成
对于商品频繁变动的电商网站,手动维护Sitemap不现实。推荐动态生成:原则
- 实时反映数据库状态: 商品上架/下架/改价时自动更新Sitemap
- 增量更新
lastmod: 只更新实际变化的条目 - 缓存但定期刷新: Sitemap可以缓存(如4小时),但商品变动时主动刷新
各平台方案
| 平台 | 方案 |
|---|---|
| Shopify | 自动生成,无需手动维护 |
| WooCommerce | Yoast SEO / RankMath自动生成 |
| Next.js | 使用 next-sitemap 包 |
| 自建站 | 从数据库动态生成XML |
8.6 向搜索引擎和AI代理通知更新
创建或更新Sitemap后,主动通知:robots.txt声明
在robots.txt 底部添加:
Ping搜索引擎
IndexNow协议
IndexNow 允许你实时通知搜索引擎和AI爬虫”我的网站有更新”。比等爬虫定期来抓取高效得多。 Bing、Yandex、Seznam等已支持IndexNow。配置简单:- 生成一个API密钥
- 在根目录放置密钥验证文件
- 每当页面更新时,POST到IndexNow API
8.7 常见错误
| 错误 | 后果 | 修复 |
|---|---|---|
lastmod 永远不变 | 爬虫不知道哪些页面更新了 | 绑定到实际更新时间 |
| 包含404或重定向URL | 浪费爬虫资源,降低Sitemap可信度 | 定期清理无效URL |
| URL带session参数 | 同一页面出现多次 | 使用规范化URL |
| 文件超过50MB | 爬虫可能截断 | 分片处理 |
| 没有在robots.txt声明 | 爬虫可能找不到Sitemap | 添加 Sitemap: 行 |
8.8 验证工具
- Google Search Console → Sitemaps → 提交你的Sitemap URL
- XML Sitemap Validator → 验证格式
- 手动检查: 访问
你的域名/sitemap.xml,确认格式正确、URL可访问
8.9 自检清单
- 有Sitemap且包含所有在售商品页面
-
lastmod反映实际更新时间 - 不包含404或重定向URL
- robots.txt中声明了Sitemap位置
- 已提交到Google Search Console
- 商品数量>50,000时已分片
下一章: 政策质量 — 隐私政策和退货政策如何影响AI信任评估