跳转到主要内容

Sitemap 优化

8.1 Sitemap在AI时代的新角色

传统上,Sitemap是给Google和Bing的”页面目录”。在AI代理时代,Sitemap的角色扩展了:
  • 传统搜索引擎: 发现新页面 → 建立索引 → 搜索结果
  • AI代理: 发现新页面 → 提取结构化数据 → 商品推荐
AI代理爬虫和传统搜索引擎爬虫都依赖Sitemap。一个优化良好的Sitemap能让你的全部商品更快被AI代理发现和理解。

8.2 Sitemap基础格式

标准的XML Sitemap格式(sitemaps.org 规范):
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/product/shoe-001</loc>
    <lastmod>2026-04-10</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://example.com/product/shoe-002</loc>
    <lastmod>2026-04-08</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

8.3 Sitemap Index:分片策略

当你的网站有大量页面时,需要使用Sitemap Index将多个Sitemap分片管理:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-pages.xml</loc>
    <lastmod>2026-04-10</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products-1.xml</loc>
    <lastmod>2026-04-10</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products-2.xml</loc>
    <lastmod>2026-04-09</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-categories.xml</loc>
    <lastmod>2026-04-05</lastmod>
  </sitemap>
</sitemapindex>
分片规则:
  • 每个Sitemap文件最多 50,000个URL50MB
  • 按内容类型分片:商品、分类、文章、政策页面各一个Sitemap
  • 商品数量超过50,000时,按字母或分类进一步分片

8.4 电商Sitemap最佳实践

商品页面Sitemap

电商网站最重要的Sitemap是商品页面。优化要点:
  1. lastmod 必须准确: 当商品价格、库存、描述变化时更新此字段。AI爬虫会根据这个判断是否需要重新抓取
  2. priority 分层设置:
    • 热门商品 / 新品: 0.9
    • 普通在售商品: 0.7-0.8
    • 下架但保留页面的商品: 0.3
  3. 只包含可访问的URL: 404页面、重定向页面不要放进Sitemap
  4. URL规范化: 每个商品只有一个标准URL(避免带参数的重复URL)

分类页面Sitemap

分类页面帮助AI代理理解你的商品结构:
<url>
  <loc>https://example.com/category/running-shoes</loc>
  <lastmod>2026-04-10</lastmod>
  <changefreq>daily</changefreq>
  <priority>0.7</priority>
</url>

政策页面

隐私政策、退货政策等页面也应包含在Sitemap中:
<url>
  <loc>https://example.com/privacy-policy</loc>
  <lastmod>2026-03-01</lastmod>
  <changefreq>monthly</changefreq>
  <priority>0.3</priority>
</url>

8.5 动态Sitemap生成

对于商品频繁变动的电商网站,手动维护Sitemap不现实。推荐动态生成:

原则

  1. 实时反映数据库状态: 商品上架/下架/改价时自动更新Sitemap
  2. 增量更新 lastmod: 只更新实际变化的条目
  3. 缓存但定期刷新: Sitemap可以缓存(如4小时),但商品变动时主动刷新

各平台方案

平台方案
Shopify自动生成,无需手动维护
WooCommerceYoast SEO / RankMath自动生成
Next.js使用 next-sitemap
自建站从数据库动态生成XML

8.6 向搜索引擎和AI代理通知更新

创建或更新Sitemap后,主动通知:

robots.txt声明

robots.txt 底部添加:
Sitemap: https://你的域名/sitemap.xml

Ping搜索引擎

# Google
curl "https://www.google.com/ping?sitemap=https://你的域名/sitemap.xml"

# Bing (IndexNow更高效)
curl -X POST "https://api.indexnow.org/IndexNow" \
  -H "Content-Type: application/json" \
  -d '{"host":"你的域名","key":"你的IndexNow密钥","urlList":["https://你的域名/new-product"]}'

IndexNow协议

IndexNow 允许你实时通知搜索引擎和AI爬虫”我的网站有更新”。比等爬虫定期来抓取高效得多。 Bing、Yandex、Seznam等已支持IndexNow。配置简单:
  1. 生成一个API密钥
  2. 在根目录放置密钥验证文件
  3. 每当页面更新时,POST到IndexNow API

8.7 常见错误

错误后果修复
lastmod 永远不变爬虫不知道哪些页面更新了绑定到实际更新时间
包含404或重定向URL浪费爬虫资源,降低Sitemap可信度定期清理无效URL
URL带session参数同一页面出现多次使用规范化URL
文件超过50MB爬虫可能截断分片处理
没有在robots.txt声明爬虫可能找不到Sitemap添加 Sitemap:

8.8 验证工具

  1. Google Search Console → Sitemaps → 提交你的Sitemap URL
  2. XML Sitemap Validator → 验证格式
  3. 手动检查: 访问 你的域名/sitemap.xml,确认格式正确、URL可访问

8.9 自检清单

  • 有Sitemap且包含所有在售商品页面
  • lastmod 反映实际更新时间
  • 不包含404或重定向URL
  • robots.txt中声明了Sitemap位置
  • 已提交到Google Search Console
  • 商品数量>50,000时已分片

下一章: 政策质量 — 隐私政策和退货政策如何影响AI信任评估