Vue d'ensemble des crawlers IA

Guide de référence des principaux crawlers IA : qui ils sont, ce qu'ils font et comment les identifier.

2025-02-15

Les entreprises d’IA exploitent des crawlers web dédiés pour collecter du contenu (entraînement, récupération en temps réel, usage par des agents). En tant que propriétaire de site, savoir quels crawlers existent et ce qu’ils font est la première étape pour contrôler l’usage de votre contenu.

Principaux crawlers

  • OpenAI : GPTBot, OAI-SearchBot, ChatGPT-User
  • Anthropic : ClaudeBot, anthropic-ai
  • Perplexity : PerplexityBot
  • Google : Google-Extended (distinct de Googlebot)
  • Apple : Applebot-Extended
  • Meta : Meta-ExternalAgent
  • Common Crawl : CCBot (jeu de données ouvert)
  • ByteDance : Bytespider

Chaque crawler a un user-agent distinct. Vous pouvez autoriser ou bloquer par crawler dans votre robots.txt. Pour une liste à jour et les bonnes pratiques, voir le guide robots.txt et le guide sur l’indexation LLM.