Données personnelles et ingestion par les LLM
Comment éviter l'ingestion de données sensibles et rester conforme au RGPD face aux crawlers IA.
2026-02-22
Le défi de la confidentialité
Les crawlers IA parcourent le web et peuvent ingérer tout contenu public. Les données personnelles, les contenus sous droits ou les informations confidentielles ne doivent pas être exposés sur des pages crawlables sans contrôle.
Bonnes pratiques
- Exclusion par robots.txt : bloquer l’accès aux zones contenant des données personnelles (comptes, paniers, API privées). Voir robots.txt.
- Content Signals : utiliser
ai-train=no(et au besoinsearch=no,ai-input=no) pour les pages sensibles si le crawler respecte le cadre. Voir Content Signals. - Authentification : ne pas compter sur robots.txt pour la sécurité ; protéger les données sensibles par authentification et autorisation.
- RGPD : informer les utilisateurs de l’usage des données, y compris si des systèmes IA peuvent accéder à du contenu public ; respecter le consentement et les droits d’accès/suppression.
Voir Bot management et Rate limiting.