robots.txt 优化
5.1 robots.txt基础
robots.txt 是一个放在网站根目录的纯文本文件(你的域名/robots.txt),告诉爬虫”哪些页面可以抓取,哪些不可以”。
所有遵守规范的爬虫(包括AI代理爬虫)在抓取你的网站前,都会先读这个文件。
5.2 传统爬虫 vs AI爬虫
2024-2026年,大量新的AI爬虫出现。它们和传统搜索引擎爬虫使用不同的User-Agent:| 爬虫 | 所属 | User-Agent | 用途 |
|---|---|---|---|
| Googlebot | Googlebot | 传统搜索索引 | |
| Bingbot | Microsoft | bingbot | 传统搜索索引 |
| ChatGPT-User | OpenAI | ChatGPT-User | ChatGPT实时浏览 |
| GPTBot | OpenAI | GPTBot | AI训练和搜索 |
| Claude-Web | Anthropic | Claude-Web | Claude实时浏览 |
| ClaudeBot | Anthropic | ClaudeBot | AI训练 |
| PerplexityBot | Perplexity | PerplexityBot | AI搜索引擎 |
| Applebot-Extended | Apple | Applebot-Extended | Apple Intelligence |
| Bytespider | 字节跳动 | Bytespider | AI训练 |
| Google-Extended | Google-Extended | Gemini AI训练 | |
| cohere-ai | Cohere | cohere-ai | AI训练 |
5.3 推荐配置
对于希望最大化AI可见性的电商网站:5.4 AI训练 vs AI浏览:一个重要区别
| 类型 | 代表爬虫 | 作用 | 屏蔽后果 |
|---|---|---|---|
| AI浏览 | ChatGPT-User, Claude-Web | 用户提问时实时抓取你的网页 | AI代理无法看到你的最新内容 |
| AI训练 | GPTBot, Google-Extended | 抓取内容用于训练AI模型 | AI的知识库中不包含你的信息 |
5.5 各平台的robots.txt管理
Shopify
Shopify通过主题文件robots.txt.liquid 控制:
- Online Store → Themes → Edit code
- 找到
robots.txt.liquid - 添加你需要的AI爬虫规则
WordPress / WooCommerce
WordPress自动生成robots.txt。通过以下方式自定义:
- Yoast SEO: SEO → Tools → File editor
- RankMath: General Settings → Edit .htaccess & robots.txt
- 手动: 在WordPress根目录创建物理
robots.txt文件(会覆盖WordPress自动生成的)
自建站
直接在网站根目录创建或编辑robots.txt 文件即可。
5.6 常见错误
| 错误 | 后果 | 修复 |
|---|---|---|
| 完全没有robots.txt | 所有爬虫默认允许(还行,但不专业) | 创建一个 |
Disallow: / 屏蔽所有 | AI代理看不到你的任何页面 | 改为只屏蔽管理页面 |
| 屏蔽了ChatGPT-User/Claude-Web | AI代理推荐你时无法获取实时内容 | 移除这些规则 |
| 没有Sitemap声明 | 爬虫可能遗漏页面 | 添加 Sitemap: 行 |
| robots.txt有语法错误 | 规则可能不生效 | 用Google的robots.txt测试工具检查 |
5.7 验证
- 访问
你的域名/robots.txt确认文件存在且格式正确 - 使用 Google Robots Testing Tool 验证规则
- 确认AI爬虫的User-Agent没有出现在
Disallow规则中
下一章: llms.txt编写指南 — 给AI代理的”公司简介”