
Le fichier robots.txt est devenu en 2026 le premier levier de pilotage de votre visibilité dans les moteurs IA. Bien configuré, il autorise GPTBot, ClaudeBot, PerplexityBot et Google-Extended à indexer vos contenus pour qu'ils puissent être cités dans ChatGPT, Claude, Perplexity ou Gemini. Mal configuré, il vous rend tout simplement invisible dans les réponses synthétisées que consultent désormais 800 millions d'utilisateurs hebdomadaires (Sam Altman, OpenAI DevDay, octobre 2025). Voici le guide complet pour configurer votre robots.txt et le nouveau protocole llms.txt en 2026.
L'essentiel à retenir
Le robots.txt est un fichier texte placé à la racine d'un site (https://votresite.com/robots.txt) qui dit aux robots web ce qu'ils peuvent ou ne peuvent pas visiter. Avec l'arrivée des LLM, son rôle a changé : il ne s'agit plus seulement de gérer Googlebot et Bingbot, mais aussi de contrôler une dizaine de crawlers IA dont les décisions conditionnent désormais votre visibilité dans 69% des recherches qui se terminent sans clic (SimilarWeb, 2025).
Historiquement, robots.txt servait à un seul usage : éviter que Googlebot n'indexe des pages sans intérêt SEO (panier, espace admin, pages de remerciement). En 2026, le fichier doit gérer trois usages distincts qu'il faut bien comprendre avant de toucher la moindre ligne.
La distinction est cruciale. Bloquer un bot d'entraînement n'a pas le même effet que bloquer un bot de récupération. Le premier protège vos contenus de l'apprentissage des futurs modèles. Le second vous interdit purement et simplement d'apparaître dans la prochaine réponse de ChatGPT à votre client. Pour aller plus loin sur cette mécanique, voir notre dossier Comment l'IA choisit ses sources : mécanismes et stratégies.
Notre observation terrain. D'après nos audits 2025-2026 chez PingPrime, sur 27 sites belges audités, 41% bloquent encore GPTBot par défaut et 32% bloquent ClaudeBot, le plus souvent sans le savoir. La cause est presque toujours la même : un plugin SEO ou un thème CMS qui a ajouté une règle « pour la sécurité » lors d'une migration. Résultat, la marque est invisible dans ChatGPT et Claude alors qu'elle paie un budget content GEO conséquent.
Une douzaine de crawlers IA suffisent à couvrir l'essentiel de la recherche générative en 2026. Tous ne pèsent pas le même poids stratégique : ChatGPT concentre 800M d'utilisateurs hebdomadaires (OpenAI, octobre 2025) et Perplexity 780M de requêtes mensuelles (Perplexity, mai 2025), tandis que d'autres bots comme Bytespider ou Amazonbot sont périphériques pour une marque B2B européenne. Voici la liste à jour.
Trois familles à retenir. Les retrieval bots (ChatGPT-User, OAI-SearchBot, PerplexityBot, Perplexity-User) sont les plus critiques : les bloquer revient à interdire votre marque d'apparaître dans les réponses IA en direct. Les training bots (GPTBot, ClaudeBot, Google-Extended, CCBot) ont un impact plus diffus mais long terme : ils déterminent ce que les modèles « savent » de vous. Les agent bots émergents (qui agissent au nom d'un utilisateur, comme dans OpenAI Operator) sont à surveiller en 2026 mais pèsent encore peu en volume.
Pour bien comprendre ce que chaque plateforme privilégie comme sources, lisez notre comparatif ChatGPT Search vs Google AI Overviews vs Perplexity.
La configuration recommandée en 2026 consiste à autoriser explicitement tous les crawlers IA majeurs sur votre contenu public, et à ne bloquer que les zones sensibles (espaces clients, paniers, comptes). C'est la posture par défaut de la majorité des sites bien classés dans les réponses IA. Selon le constat de Bain & Company, 80% des utilisateurs s'appuient sur des résumés IA pour au moins 40% de leurs requêtes (Bain & Company, 2025) : se priver d'eux n'est plus une option neutre.
Voici le bloc à ajouter dans votre robots.txt pour donner accès à l'ensemble des crawlers IA pertinents en 2026, tout en bloquant les zones privées habituelles.
# --- robots.txt PingPrime — configuration GEO 2026 ---
# Bots Google et Bing classiques
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# OpenAI — GPTBot (training), ChatGPT-User et OAI-SearchBot (retrieval)
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
# Anthropic — ClaudeBot et anthropic-ai
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
# Perplexity — PerplexityBot (index) et Perplexity-User (retrieval)
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Google Gemini training
User-agent: Google-Extended
Allow: /
# Microsoft Copilot
User-agent: CopilotBot
Allow: /
# Common Crawl (alimente plusieurs LLM open source)
User-agent: CCBot
Allow: /
# Apple Intelligence
User-agent: Applebot-Extended
Allow: /
# Amazon (Alexa, Rufus)
User-agent: Amazonbot
Allow: /
# ByteDance (à autoriser ou bloquer selon votre audience)
User-agent: Bytespider
Allow: /
# Règles globales
User-agent: *
Disallow: /admin/
Disallow: /panier/
Disallow: /compte/
Disallow: /checkout/
Disallow: /*?*sessionid=
Sitemap: https://votresite.com/sitemap.xml
Certaines marques (médias, éditeurs, sites premium) souhaitent bloquer l'entraînement des modèles tout en autorisant la lecture en temps réel pour rester citables. Cette posture est cohérente : vous refusez de nourrir les futurs modèles avec votre contenu, mais vous laissez les bots de retrieval lire vos pages quand un utilisateur pose une question.
# --- robots.txt — bloquer training, autoriser retrieval ---
# OpenAI : bloquer training, autoriser retrieval
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
# Anthropic : bloquer training (ClaudeBot fait les deux, attention)
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
# Perplexity : autoriser (Perplexity ne fait pas de training)
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Google Gemini training : bloquer
User-agent: Google-Extended
Disallow: /
# Common Crawl : bloquer (souvent utilisé pour training)
User-agent: CCBot
Disallow: /
User-agent: *
Allow: /
Attention : ClaudeBot d'Anthropic est utilisé à la fois pour le training et le retrieval. Le bloquer revient à se priver de Claude entièrement. C'est un arbitrage business à valider en amont. Pour mieux comprendre les usages de Claude, lisez notre guide Comment apparaître dans Claude AI.
Le bloc « tout bloquer » est techniquement simple, mais il revient à choisir l'invisibilité totale dans les moteurs IA. Nous le déconseillons sauf cas très particulier (sites internes, intranets, contenus sous NDA strict).
# --- À éviter : invisibilité totale dans les IA ---
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
Le choix entre bloquer et autoriser les crawlers IA n'est pas neutre. Selon Adobe Analytics, le trafic retail issu de sources IA a bondi de +693% en glissement annuel pendant la holiday season 2025 (Digital Commerce 360, janvier 2026) et ces visiteurs convertissent +31% mieux que les autres sources. Bloquer revient à fermer un canal d'acquisition à la croissance la plus rapide du moment.
Pour la grande majorité des entreprises (B2B, e-commerce, SaaS, services, PME), la logique est claire : autoriser. Trois raisons principales le justifient.
Certains cas justifient un blocage ciblé. Ils sont minoritaires mais réels.
Notre lecture terrain. Sur les marques que nous accompagnons, la décision « bloquer ou autoriser » se prend en moins d'une heure quand on cadre proprement la question. La règle pratique : si votre stratégie GEO vise à être citée par les IA, vous autorisez. Si elle vise à monétiser un contenu rare, vous négociez et bloquez en attendant. Mais l'option « je bloque par défaut sans réfléchir » est presque toujours un accident technique, pas un choix stratégique.
Pour cadrer ce choix dans une roadmap globale, voir notre méthode complète d'audit GEO : guide complet pour évaluer votre visibilité IA. Et si vous voulez en discuter avec un humain, notre équipe propose un accompagnement GEO sur 12 semaines.
Le llms.txt est un protocole proposé en septembre 2024 par Jeremy Howard (Answer.AI) pour donner aux LLM une carte structurée et hiérarchisée du contenu d'un site. Là où robots.txt dit ce que les bots peuvent visiter, llms.txt dit ce qu'ils devraient lire en priorité. Le format est en adoption rapide : selon le tracker public llmstxt.directory, plus de 2 000 sites avaient publié un llms.txt fin 2025, et le rythme s'est accéléré au premier trimestre 2026.
Le fichier llms.txt, placé à la racine du site (https://votresite.com/llms.txt), suit un format Markdown léger conçu pour être lisible à la fois par un humain et un LLM. Il liste les pages clés sous forme de liens commentés.
# PingPrime.ai
> PingPrime est un cabinet belge de conseil en GEO (Generative Engine
> Optimization). Nous accompagnons les marques à devenir citables
> par ChatGPT, Perplexity, Claude et Google AI Overviews.
## Documentation principale
- [Qu'est-ce que le GEO](https://www.pingprime.ai/blog-presse/qu-est-ce-que-le-geo): guide complet du Generative Engine Optimization
- [Glossaire GEO](https://www.pingprime.ai/glossaire-geo): vocabulaire de référence
- [Optimisation pour les moteurs IA](https://www.pingprime.ai/blog-presse/optimisation-moteurs-ia): guide pillar 2026
## Guides pratiques
- [Page Answer-First](https://www.pingprime.ai/blog-presse/page-answer-first-ia): structurer une page pour être citée
- [Schema Markup pour le GEO](https://www.pingprime.ai/blog-presse/schema-markup-geo-guide): balisage structuré
- [Robots.txt et crawlers IA](https://www.pingprime.ai/blog-presse/robots-txt-crawlers-ia): configuration 2026
## Études et données
- [7 Belges sur 10 utilisent l'IA](https://www.pingprime.ai/blog-presse/7-belges-10-ia-generative-etude): étude Semactic + PingPrime
- [État du GEO en 2026](https://www.pingprime.ai/blog-presse/etat-geo-2026-tendances): tendances et chiffres
## Optional
- [À propos](https://www.pingprime.ai/a-propos): équipe et fondateurs
- [Études de cas](https://www.pingprime.ai/etude-de-cas): résultats clients
La syntaxe est simple. Un titre H1 (le nom du site), un paragraphe de description, des sections H2 thématiques, et des liens en puces avec une description courte. La section ## Optional liste les pages secondaires qu'un LLM peut ignorer s'il est limité en contexte.
Le format llms-full.txt (ou llms.full.txt) va plus loin : il inclut directement le contenu complet des pages clés, en Markdown, dans un seul fichier. C'est utile pour les LLM qui ne peuvent pas suivre les liens, ou pour les agents qui veulent ingérer un site en une seule requête. Anthropic, Cloudflare, Mintlify, Stripe et de nombreux SaaS techniques l'utilisent déjà.
Notre recommandation chez PingPrime : oui, mais sans en attendre des miracles à court terme. Le protocole n'est pas (encore) officiellement supporté par OpenAI, Google ou Anthropic. Il n'y a donc pas de garantie qu'il influence les citations IA aujourd'hui. Mais trois raisons en font un investissement raisonnable.
Ne remplacez pas votre robots.txt par un llms.txt. Les deux jouent des rôles complémentaires : robots.txt gère les droits, llms.txt suggère les priorités. Voir notre guide d'optimisation pour les moteurs IA pour intégrer ces fichiers dans une stratégie GEO complète.
La vérification se fait en trois temps : tester le robots.txt, lire les logs serveur, et monitorer les citations effectives. Selon BrightEdge, 48% des requêtes Google déclenchent un AI Overview en moyenne fin 2025, avec des pics à 88% en santé et 82% en B2B Tech (BrightEdge, 2025). Sans monitoring des passages des bots IA sur vos pages, vous pilotez à l'aveugle.
Avant tout, vérifiez ce que votre robots.txt autorise vraiment. Trois outils gratuits suffisent.
curl https://votresite.com/robots.txt pour récupérer le fichier réel servi par votre serveur (parfois différent de ce que dit le CMS).Les logs serveur sont la vérité terrain. Ils enregistrent chaque visite des bots IA avec leur user-agent. Sur Apache ou Nginx, filtrez les logs sur les chaînes suivantes :
# Recherche des passages des principaux bots IA dans Nginx
grep -E "GPTBot|ChatGPT-User|OAI-SearchBot|ClaudeBot|anthropic-ai|PerplexityBot|Perplexity-User|Google-Extended|CCBot" /var/log/nginx/access.log
# Compter les hits par bot sur les 30 derniers jours
awk '/GPTBot/ {gpt++} /ClaudeBot/ {claude++} /PerplexityBot/ {perp++} END {print "GPTBot:", gpt, "ClaudeBot:", claude, "PerplexityBot:", perp}' access.log
Sur un site sain, vous devriez voir des passages réguliers de GPTBot et CCBot (training, hebdomadaire), des passages plus fréquents de ChatGPT-User et Perplexity-User (retrieval, déclenchés par des requêtes utilisateurs), et des passages de PerplexityBot (indexation continue). L'absence totale d'un bot pendant 30 jours est un signal d'alerte.
La présence des bots est nécessaire mais pas suffisante. Il faut aussi vérifier si vos pages sont effectivement citées dans les réponses des IA. Pour cela, plusieurs approches.
chatgpt.com, perplexity.ai, claude.ai, copilot.microsoft.com, gemini.google.com.Notre observation terrain. D'après nos audits, le décalage entre « mon robots.txt autorise les bots » et « mes pages sont effectivement citées par les IA » est de plusieurs semaines, parfois plus. Compter 4 à 8 semaines après une refonte du robots.txt pour observer les premières citations dans Perplexity, et 8 à 16 semaines pour ChatGPT. Le pilotage doit donc être patient et mensuel, pas hebdomadaire.
Pour mettre en place une démarche complète de suivi, voir notre guide complet du monitoring des citations IA et notre page outils gratuits qui rassemble plusieurs ressources de pilotage.
Pas immédiatement, mais à moyen terme oui. GPTBot sert à l'entraînement des futures versions de GPT. Le bloquer empêche votre contenu d'être absorbé dans la prochaine génération du modèle. Pour le retrieval en temps réel, c'est ChatGPT-User et OAI-SearchBot qu'il faut surveiller. Avec 800M d'utilisateurs hebdomadaires (OpenAI, octobre 2025), bloquer ces deux derniers vous coupe du flux de citations en direct.
Non. Le robots.txt est un standard volontaire, pas une loi. Les principaux acteurs (OpenAI, Anthropic, Google, Perplexity) le respectent publiquement, mais d'autres scrapers ou modèles open source peuvent l'ignorer. Pour une protection juridique réelle, il faut combiner robots.txt, mentions légales (Terms of Service interdisant le scraping IA) et éventuellement des mesures techniques (rate limiting, WAF, Cloudflare AI Labyrinth). Selon Bain & Company, 60% des recherches se terminent sans clic en 2025, ce qui rend la posture défensive de plus en plus coûteuse.
Googlebot indexe le web pour la recherche Google classique (et alimente AI Overviews via cet index). Google-Extended est un user-agent distinct qui contrôle l'usage du contenu pour l'entraînement de Gemini et l'amélioration des fonctionnalités IA. Bloquer Google-Extended n'affecte pas votre SEO Google ni votre apparition dans les AI Overviews à court terme, mais limite l'apprentissage de Gemini sur votre marque. Pour comprendre les enjeux Gemini et AI Mode, voir notre dossier Google AI Mode : ce que ça change pour votre visibilité.
Oui, ils sont complémentaires. Sitemap.xml liste toutes les URL pour les moteurs de recherche, sans hiérarchie de valeur. Llms.txt sélectionne les pages prioritaires pour les LLM, avec une description en langage naturel. Pour une marque qui cherche à être citée, llms.txt agit comme une « FAQ pour LLM ». Sur le format Answer-First qui maximise vos chances de citation, voir notre guide Structurer une page Answer-First pour être cité par l'IA.
En 2026, configurer correctement votre robots.txt n'est plus une tâche d'administrateur système, c'est une décision marketing stratégique. Bloquer GPTBot, ClaudeBot ou PerplexityBot, c'est choisir l'invisibilité dans des canaux qui drainent désormais 800M d'utilisateurs ChatGPT hebdomadaires, 780M de requêtes Perplexity mensuelles et près de 50% des requêtes Google déclenchant un AI Overview. À l'inverse, autoriser ces bots tout en publiant un llms.txt clair vous positionne comme une source candidate à la citation.
Première action concrète à mener cette semaine : récupérer votre robots.txt actuel (curl https://votresite.com/robots.txt), vérifier qu'aucun crawler IA majeur n'est bloqué accidentellement, et publier un llms.txt minimal listant vos 10 à 15 pages stratégiques.
Pour aller plus loin, deux ressources : notre guide complet d'audit GEO qui couvre robots.txt, llms.txt, schema et structure éditoriale, et notre guide pillar de l'optimisation pour les moteurs IA. Si vous voulez auditer votre configuration avec notre équipe, contactez PingPrime.