什么是AI爬虫?
AI爬虫是自动扫描网站的机器人,为AI语言模型和AI驱动的搜索引擎收集信息。就像Googlebot为Google搜索爬取网页并建立索引一样,AI爬虫获取内容用于训练模型、驱动实时搜索和生成AI回答。
当有人向ChatGPT询问关于您业务的问题时,回答的质量部分取决于GPTBot是否能够爬取您的网站。如果您阻止了它——无论是有意还是无意——AI可能会拥有关于您的过时或不准确信息。
11个主要AI爬虫
以下是您应该了解的每个AI爬虫的全面介绍:
1. GPTBot (OpenAI)
| 详情 | 信息 |
|---|---|
| User Agent | GPTBot |
| 公司 | OpenAI |
| 用途 | ChatGPT的训练数据和实时浏览 |
| 完整UA字符串 | Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.0; +https://openai.com/gptbot) |
GPTBot可以说是最重要的AI爬虫。它为ChatGPT的知识库和浏览功能提供支持。阻止GPTBot意味着ChatGPT可能没有关于您业务的准确、最新信息。
2. ClaudeBot (Anthropic)
| 详情 | 信息 |
|---|---|
| User Agent | ClaudeBot |
| 公司 | Anthropic |
| 用途 | Claude AI的内容访问 |
| 完整UA字符串 | ClaudeBot/1.0 (https://www.anthropic.com) |
ClaudeBot为Anthropic的Claude获取内容,Claude是最强大的AI助手之一。Claude越来越多地用于商业场景,因此对ClaudeBot的可访问性对B2B可见性至关重要。
3. PerplexityBot (Perplexity AI)
| 详情 | 信息 |
|---|---|
| User Agent | PerplexityBot |
| 公司 | Perplexity AI |
| 用途 | 带引用的实时搜索回答 |
| 完整UA字符串 | PerplexityBot/1.0 (https://perplexity.ai) |
PerplexityBot的独特之处在于Perplexity会直接引用其来源。当Perplexity回答问题并引用您的网站时,用户可以看到直接链接。这使得PerplexityBot在流量生成方面特别有价值。
4. Google-Extended (Google)
| 详情 | 信息 |
|---|---|
| User Agent | Google-Extended |
| 公司 | |
| 用途 | AI Overviews和Gemini训练 |
Google-Extended与Googlebot是分开的。阻止它不会影响您的Google搜索排名,但会阻止您的内容出现在Google AI Overviews中——即出现在搜索结果上方的AI生成摘要。
5. Bytespider (ByteDance)
| 详情 | 信息 |
|---|---|
| User Agent | Bytespider |
| 公司 | ByteDance |
| 用途 | TikTok AI功能和模型训练 |
ByteDance使用Bytespider为其平台上的各种AI应用提供支持,包括TikTok不断增长的搜索和AI功能。
6. CCBot (Common Crawl)
| 详情 | 信息 |
|---|---|
| User Agent | CCBot |
| 公司 | Common Crawl Foundation |
| 用途 | 被众多AI模型使用的开放网络数据集 |
CCBot构建Common Crawl数据集——一个许多AI公司用于训练的开放网络内容库。阻止CCBot的影响范围很广,因为多个AI模型都依赖Common Crawl数据。
7. FacebookBot (Meta)
| 详情 | 信息 |
|---|---|
| User Agent | FacebookBot |
| 公司 | Meta |
| 用途 | Meta各平台(Facebook、Instagram、WhatsApp)的AI功能 |
Meta使用FacebookBot为其应用系列的AI功能提供支持,包括Meta AI助手。
8. Amazonbot (Amazon)
| 详情 | 信息 |
|---|---|
| User Agent | Amazonbot |
| 公司 | Amazon |
| 用途 | Alexa AI和Amazon购物AI |
Amazonbot为Alexa、Amazon的购物体验以及其他Amazon AI服务中的AI功能提供支持。
9. AppleBot-Extended (Apple)
| 详情 | 信息 |
|---|---|
| User Agent | Applebot-Extended |
| 公司 | Apple |
| 用途 | Siri和Apple Intelligence功能 |
Apple的扩展机器人为Siri和Apple Intelligence中的AI功能提供支持。随着Apple在iOS和macOS中深化AI集成,这个爬虫变得越来越重要。
10. cohere-ai (Cohere)
| 详情 | 信息 |
|---|---|
| User Agent | cohere-ai |
| 公司 | Cohere |
| 用途 | 企业AI模型训练 |
Cohere主要为企业用途构建AI模型。其爬虫收集网络内容用于训练数据。
11. Diffbot (Diffbot)
| 详情 | 信息 |
|---|---|
| User Agent | Diffbot |
| 公司 | Diffbot |
| 用途 | 知识图谱和结构化数据提取 |
Diffbot构建了网络上最大的知识图谱之一。许多AI应用使用Diffbot的数据进行实体识别和事实检索。
如何在robots.txt中允许AI爬虫
允许所有AI爬虫(推荐)
最简单的方法——不阻止任何爬虫:
# robots.txt
User-agent: *
Allow: /
允许特定AI爬虫
如果您想要精细控制:
# robots.txt
# Allow AI crawlers
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Bytespider
Allow: /
User-agent: CCBot
Allow: /
阻止特定AI爬虫
如果您有理由阻止某些爬虫(例如内容许可方面的顾虑):
# robots.txt
# Block specific AI crawlers
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
重要提示: 阻止爬虫时请深思熟虑。每一个被阻止的爬虫都代表一个无法准确展示您业务的AI平台。
如何检查您的AI爬虫状态
您可以手动检查,方法是阅读您的 robots.txt 文件并查找AI爬虫指令。但需要检查11个以上的爬虫,很容易遗漏。
最快的方法是使用我们的免费AI曝光审计——它会在几秒内检查所有11个AI爬虫,并准确告诉您哪些是允许的、哪些被阻止了。
常见问题
”我没有阻止任何AI爬虫,但它们显示为被阻止”
这通常是因为有一个宽泛的 Disallow 规则。例如:
User-agent: *
Disallow: /
这会阻止所有爬虫,包括AI机器人。许多网站保留了开发或预发布环境中的这条规则。
“我的CDN/WAF阻止了AI爬虫”
一些CDN和Web应用防火墙(如Cloudflare、Akamai或Sucuri)会积极阻止机器人流量。检查您的WAF设置,确保AI爬虫在白名单中。
“我只想让AI爬虫看到某些页面”
您可以有选择性地配置:
User-agent: GPTBot
Allow: /about
Allow: /products
Allow: /blog
Disallow: /admin
Disallow: /private
为什么您应该关注
关键要点是:超过60%的网站在不知情的情况下阻止了至少一个AI爬虫。
每一个被阻止的爬虫都是一个错失的机会。当潜在客户向AI助手询问您所在行业的产品或服务时,您希望被提及。这只有在AI模型能够获取关于您业务的准确、最新信息时才会发生。
修复通常很简单——robots.txt中的几行配置。但对您的AI可见性的影响可能是巨大的。
立即检查您的AI爬虫状态 — 运行免费AI曝光审计,查看11个AI爬虫中哪些可以访问您的网站。