
Het bestand robots.txt is in 2026 de belangrijkste hefboom geworden voor het beheer van uw zichtbaarheid in AI-zoekmachines. Goed geconfigureerd, staat het GPTBot, ClaudeBot, PerplexityBot en Google-Extended toe om uw inhoud te indexeren zodat deze kan worden geciteerd in ChatGPT, Claude, Perplexity of Gemini. Slecht geconfigureerd, maakt het u simpelweg onzichtbaar in de samengevatte antwoorden die nu worden geraadpleegd door 800 miljoen wekelijkse gebruikers (Sam Altman, OpenAI DevDay, oktober 2025). Hier is de complete gids voor het configureren van uw robots.txt en het nieuwe llms.txt-protocol in 2026.
Het belangrijkste om te onthouden
Robots.txt is een tekstbestand dat zich in de root van een website bevindt (https://uwwebsite.com/robots.txt) en dat webrobots vertelt wat ze wel of niet mogen bezoeken. Met de komst van LLM's is de rol ervan veranderd: het gaat niet langer alleen om het beheren van Googlebot en Bingbot, maar ook om het controleren van een tiental AI-crawlers waarvan de beslissingen nu uw zichtbaarheid bepalen in 69% van de zoekopdrachten die eindigen zonder klik (SimilarWeb, 2025).
Historisch gezien diende robots.txt voor één enkel doel: voorkomen dat Googlebot pagina's indexeerde zonder SEO-waarde (winkelwagen, beheerdersgedeelte, bedankpagina's). In 2026 moet het bestand drie verschillende toepassingen beheren die goed begrepen moeten worden voordat er ook maar één regel wordt aangepast.
Het onderscheid is cruciaal. Het blokkeren van een trainingsbot heeft niet hetzelfde effect als het blokkeren van een retrievalbot. De eerste beschermt uw content tegen het leren van toekomstige modellen. De tweede verbiedt u simpelweg om te verschijnen in het volgende antwoord van ChatGPT aan uw klant. Voor meer informatie over dit mechanisme, zie ons dossier Hoe AI zijn bronnen kiest: mechanismen en strategieën.
Onze praktijkobservatie. Volgens onze audits 2025-2026 bij PingPrime, van 27 geauditeerde Belgische websites, 41% blokkeren GPTBot nog steeds standaard en 32% blokkeren ClaudeBot, meestal zonder het te weten. De oorzaak is bijna altijd dezelfde: een SEO-plugin of een CMS-thema dat tijdens een migratie een regel "voor de veiligheid" heeft toegevoegd. Het resultaat is dat het merk onzichtbaar is in ChatGPT en Claude, terwijl het een aanzienlijk GEO-contentbudget betaalt.
Een tiental AI-crawlers volstaat om het grootste deel van de generatieve zoekopdrachten in 2026 te dekken. Ze hebben niet allemaal hetzelfde strategische gewicht: ChatGPT concentreert 800M wekelijkse gebruikers (OpenAI, oktober 2025) en Perplexity 780M maandelijkse zoekopdrachten (Perplexity, mei 2025), terwijl andere bots zoals Bytespider of Amazonbot van ondergeschikt belang zijn voor een Europees B2B-merk. Hier is de bijgewerkte lijst.
Drie families om te onthouden. De retrieval bots (ChatGPT-User, OAI-SearchBot, PerplexityBot, Perplexity-User) zijn het meest kritiek: ze blokkeren betekent dat uw merk niet meer verschijnt in live AI-antwoorden. De training bots (GPTBot, ClaudeBot, Google-Extended, CCBot) hebben een meer verspreide maar langetermijnimpact: zij bepalen wat de modellen over u 'weten'. De agent bots die opkomen (en handelen namens een gebruiker, zoals in OpenAI Operator) moeten in 2026 in de gaten worden gehouden, maar wegen nog weinig in volume.
Om goed te begrijpen welke bronnen elk platform de voorkeur geeft, lees ons vergelijkend overzicht ChatGPT Search vs Google AI Overviews vs Perplexity.
De aanbevolen configuratie in 2026 is om expliciet toe te staan alle belangrijke AI-crawlers op uw openbare inhoud, en alleen gevoelige gebieden te blokkeren (klantgebieden, winkelwagentjes, accounts). Dit is de standaardhouding van de meeste goed gerangschikte sites in AI-antwoorden. Volgens de bevindingen van Bain & Company, 80% van de gebruikers vertrouwt op AI-samenvattingen voor minstens 40% van hun zoekopdrachten (Bain & Company, 2025): hen uitsluiten is geen neutrale optie meer.
Hier is het blok dat u moet toevoegen aan uw robots.txt om toegang te geven tot alle relevante AI-crawlers in 2026, terwijl de gebruikelijke privézones worden geblokkeerd.
# --- robots.txt PingPrime — configuratie GEO 2026 ---
# Klassieke Google- en Bing-bots
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# OpenAI — GPTBot (training), ChatGPT-User en OAI-SearchBot (retrieval)
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
# Anthropic — ClaudeBot en anthropic-ai
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
# Perplexity — PerplexityBot (index) en Perplexity-User (retrieval)
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Google Gemini training
User-agent: Google-Extended
Allow: /
# Microsoft Copilot
User-agent: CopilotBot
Allow: /
# Common Crawl (voedt verschillende open-source LLM's)
User-agent: CCBot
Allow: /
# Apple Intelligence
User-agent: Applebot-Extended
Allow: /
# Amazon (Alexa, Rufus)
User-agent: Amazonbot
Allow: /
# ByteDance (toestaan of blokkeren afhankelijk van uw doelgroep)
User-agent: Bytespider
Allow: /
# Globale regels
User-agent: *
Disallow: /admin/
Disallow: /panier/
Disallow: /compte/
Disallow: /checkout/
Disallow: /*?*sessionid=
Sitemap: https://uwwebsite.com/sitemap.xml
Sommige merken (media, uitgevers, premium sites) willen de training van modellen blokkeren, terwijl ze real-time lezen toestaan om citeerbaar te blijven. Deze houding is consistent: u weigert toekomstige modellen te voeden met uw inhoud, maar u laat retrieval-bots uw pagina's lezen wanneer een gebruiker een vraag stelt.
# --- robots.txt — training blokkeren, retrieval toestaan ---
# OpenAI: training blokkeren, retrieval toestaan
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
# Anthropic: training blokkeren (ClaudeBot doet beide, let op)
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
# Perplexity: toestaan (Perplexity doet geen training)
User-agent: PerplexityBot
Toegestaan: /
User-agent: Perplexity-User
Toegestaan: /
# Google Gemini training: blokkeren
User-agent: Google-Extended
Niet toegestaan: /
# Common Crawl: blokkeren (vaak gebruikt voor training)
User-agent: CCBot
Niet toegestaan: /
User-agent: *
Toegestaan: /
Let op: ClaudeBot van Anthropic wordt zowel voor training als voor retrieval gebruikt. Het blokkeren ervan betekent dat u Claude volledig uitsluit. Dit is een zakelijke afweging die vooraf moet worden gevalideerd. Voor een beter begrip van het gebruik van Claude, lees onze gids Hoe verschijn je in Claude AI.
Het blok "alles blokkeren" is technisch eenvoudig, maar het betekent dat u kiest voor totale onzichtbaarheid in AI-engines. We raden dit af, behalve in zeer specifieke gevallen (interne sites, intranetten, inhoud onder strikte NDA).
# --- Te vermijden: totale onzichtbaarheid in AI's ---
User-agent: GPTBot
Niet toegestaan: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
De keuze om AI-crawlers te blokkeren of toe te staan, is niet neutraal. Volgens Adobe Analytics is het retailverkeer afkomstig van AI-bronnen met +693% gestegen op jaarbasis tijdens het feestseizoen van 2025. (Digital Commerce 360, januari 2026) en deze bezoekers converteren +31% beter dan andere bronnen. Blokkeren betekent het afsluiten van een van de snelst groeiende acquisitiekanalen van dit moment.
Voor de overgrote meerderheid van bedrijven (B2B, e-commerce, SaaS, diensten, MKB) is de logica duidelijk: toegang verlenen. Drie belangrijke redenen rechtvaardigen dit.
In sommige gevallen is gerichte blokkering gerechtvaardigd. Deze zijn in de minderheid, maar wel reëel.
Onze praktijkervaring. Bij de merken die we begeleiden, wordt de beslissing « blokkeren of toestaan » in minder dan een uur genomen wanneer de vraag goed wordt afgebakend. De praktische regel: als uw GEO-strategie gericht is op vermeld te worden door AI, dan staat u het toe. Als het gericht is op zeldzame content te gelde maken, dan onderhandelt u en blokkeert u in de tussentijd. Maar de optie « ik blokkeer standaard zonder na te denken » is bijna altijd een technisch ongeluk, geen strategische keuze.
Om deze keuze in een globale roadmap in te passen, zie onze complete methode voorGEO-audit: complete gids om uw AI-zichtbaarheid te evalueren. En als u er met een mens over wilt praten, biedt ons team een GEO-begeleiding van 12 weken.
Het llms.txt is een protocol dat in september 2024 is voorgesteld door Jeremy Howard (Answer.AI) om LLM's een gestructureerde en hiërarchische kaart van de inhoud van een site te geven. Waar robots.txt zegt wat bots mogen bezoeken, zegt llms.txt wat ze prioritair zouden moeten lezen. Het formaat wordt snel geadopteerd: volgens de openbare tracker llmstxt.directory, meer dan 2.000 sites hadden eind 2025 een llms.txt gepubliceerd, en het tempo versnelde in het eerste kwartaal van 2026.
Het bestand llms.txt, geplaatst in de root van de website (https://votresite.com/llms.txt), volgt een lichtgewicht Markdown-formaat dat is ontworpen om zowel door een mens als een LLM leesbaar te zijn. Het vermeldt de belangrijkste pagina's in de vorm van geannoteerde links.
# PingPrime.ai
> PingPrime is een Belgisch adviesbureau gespecialiseerd in GEO (Generative Engine
> Optimization). Wij helpen merken citeerbaar te worden
> door ChatGPT, Perplexity, Claude en Google AI Overviews.
## Belangrijkste documentatie
- [Wat is GEO](https://www.pingprime.ai/blog-presse/qu-est-ce-que-le-geo): uitgebreide gids voor Generative Engine Optimization
- [GEO-woordenlijst](https://www.pingprime.ai/glossaire-geo): referentiewoordenlijst
- [Optimalisatie voor AI-engines](https://www.pingprime.ai/blog-presse/optimisation-moteurs-ia): pijlergids 2026
## Praktische gidsen
- [Answer-First pagina](https://www.pingprime.ai/blog-presse/page-answer-first-ia): een pagina structureren om geciteerd te worden
- [Schema Markup voor GEO](https://www.pingprime.ai/blog-presse/schema-markup-geo-guide): gestructureerde opmaak
- [Robots.txt en AI-crawlers](https://www.pingprime.ai/blog-presse/robots-txt-crawlers-ia): configuratie 2026
## Studies en gegevens
- [7 op de 10 Belgen gebruiken AI](https://www.pingprime.ai/blog-presse/7-belges-10-ia-generative-etude): onderzoek Semactic + PingPrime
- [Status van GEO in 2026](https://www.pingprime.ai/blog-presse/etat-geo-2026-tendances): trends en cijfers
## Optional
- [Over ons](https://www.pingprime.ai/a-propos): team en oprichters
- [Casestudies](https://www.pingprime.ai/etude-de-cas): klantresultaten
De syntaxis is eenvoudig. Een H1-titel (de naam van de site), een beschrijvende paragraaf, thematische H2-secties en links in opsommingstekens met een korte beschrijving. De sectie ## Optional vermeldt de secundaire pagina's die een LLM kan negeren als het beperkt is in context.
Het formaat llms-full.txt (of llms.full.txt) gaat verder: het bevat direct de volledige inhoud van de belangrijkste pagina's, in Markdown, in één bestand. Dit is handig voor LLM's die geen links kunnen volgen, of voor agents die een site in één keer willen opnemen. Anthropic, Cloudflare, Mintlify, Stripe en veel technische SaaS-bedrijven gebruiken het al.
Onze aanbeveling bij PingPrime: ja, maar verwacht er op korte termijn geen wonderen van. Het protocol wordt (nog) niet officieel ondersteund door OpenAI, Google of Anthropic. Er is dus geen garantie dat het vandaag de dag invloed heeft op AI-citaten. Maar drie redenen maken het een redelijke investering.
Vervang uw robots.txt niet door een llms.txt. Beide spelen een aanvullende rol: robots.txt beheert de rechten, llms.txt suggereert de prioriteiten. Zie onze optimalisatiegids voor AI-engines om deze bestanden te integreren in een complete GEO-strategie.
De controle gebeurt in drie stappen: het testen van robots.txt, het lezen van serverlogs en het monitoren van effectieve vermeldingen. Volgens BrightEdge zal gemiddeld 48% van de Google-zoekopdrachten eind 2025 een AI Overview activeren, met pieken tot 88% in de gezondheidszorg en 82% in B2B Tech (BrightEdge, 2025). Zonder monitoring van de bezoeken van AI-bots aan uw pagina's, stuurt u blind.
Controleer eerst wat uw robots.txt echt toestaat. Drie gratis tools zijn voldoende.
curl https://votresite.com/robots.txt om het daadwerkelijke bestand op te halen dat door uw server wordt aangeboden (soms anders dan wat het CMS aangeeft).De serverlogs zijn de praktijk. Ze registreren elk bezoek van AI-bots met hun user-agent. Filter op Apache of Nginx de logs op de volgende strings:
# Zoeken naar bezoeken van de belangrijkste AI-bots in Nginx
grep -E "GPTBot|ChatGPT-User|OAI-SearchBot|ClaudeBot|anthropic-ai|PerplexityBot|Perplexity-User|Google-Extended|CCBot" /var/log/nginx/access.log
# Aantal hits per bot tellen over de laatste 30 dagen
awk '/GPTBot/ {gpt++} /ClaudeBot/ {claude++} /PerplexityBot/ {perp++} END {print "GPTBot:", gpt, "ClaudeBot:", claude, "PerplexityBot:", perp}' access.log
Op een gezonde site zou u regelmatige bezoeken moeten zien van GPTBot en CCBot (training, wekelijks), frequentere bezoeken van ChatGPT-User en Perplexity-User (retrieval, geactiveerd door gebruikersaanvragen), en bezoeken van PerplexityBot (continue indexering). De totale afwezigheid van een bot gedurende 30 dagen is een waarschuwingssignaal.
De aanwezigheid van bots is noodzakelijk, maar niet voldoende. U moet ook controleren of uw pagina's daadwerkelijk vermeld worden in de AI-antwoorden. Hiervoor zijn er meerdere benaderingen.
chatgpt.com, perplexity.ai, claude.ai, copilot.microsoft.com, gemini.google.com.Onze praktijkobservatie. Volgens onze audits, het verschil tussen « mijn robots.txt staat bots toe » en « mijn pagina's worden inderdaad door AI's geciteerd » is enkele weken, soms langer. Reken op 4 tot 8 weken na een aanpassing van robots.txt om de eerste vermeldingen in Perplexity te zien, en 8 tot 16 weken voor ChatGPT. Het beheer moet daarom geduldig en maandelijks zijn, niet wekelijks.
Om een complete monitoringaanpak op te zetten, zie onze complete gids voor het monitoren van AI-vermeldingen en onze pagina gratis tools die verschillende monitoringbronnen bundelt.
Niet onmiddellijk, maar op middellange termijn wel. GPTBot wordt gebruikt voor het trainen van toekomstige versies van GPT. Het blokkeren ervan voorkomt dat uw inhoud wordt opgenomen in de volgende generatie van het model. Voor real-time retrieval moet u ChatGPT-User en OAI-SearchBot in de gaten houden. Met 800 miljoen wekelijkse gebruikers (OpenAI, oktober 2025), snijdt het blokkeren van deze twee u af van de stroom van directe vermeldingen.
Nee. Robots.txt is een vrijwillige standaard, geen wet. De belangrijkste spelers (OpenAI, Anthropic, Google, Perplexity) respecteren deze publiekelijk, maar andere scrapers of open-source modellen kunnen deze negeren. Voor echte juridische bescherming moet u robots.txt, juridische kennisgevingen (Servicevoorwaarden die AI-scraping verbieden) en eventueel technische maatregelen (rate limiting, WAF, Cloudflare AI Labyrinth) combineren. Volgens Bain & Company eindigt 60% van de zoekopdrachten in 2025 zonder klik, wat de defensieve houding steeds duurder maakt.
Googlebot indexeert het web voor de klassieke Google-zoekopdracht (en voedt AI Overviews via deze index). Google-Extended is een aparte user-agent die het gebruik van content beheert voor de training van Gemini en de verbetering van AI-functionaliteiten. Het blokkeren van Google-Extended heeft op korte termijn geen invloed op je Google SEO of je verschijning in AI Overviews, maar beperkt de leermogelijkheden van Gemini over je merk. Voor een beter begrip van de uitdagingen van Gemini en AI Mode, zie ons dossier Google AI Mode: wat het verandert voor je zichtbaarheid.
Ja, ze vullen elkaar aan. Sitemap.xml vermeldt alle URL's voor zoekmachines, zonder waardeprioriteit. Llms.txt selecteert de prioritaire pagina's voor LLM's, met een beschrijving in natuurlijke taal. Voor een merk dat geciteerd wil worden, fungeert llms.txt als een "FAQ voor LLM's". Voor het Answer-First-formaat dat je kansen op citatie maximaliseert, zie onze gids Een Answer-First-pagina structureren om door AI geciteerd te worden.
In 2026 is het correct configureren van je robots.txt niet langer een taak voor een systeembeheerder, maar een strategische marketingbeslissing. Het blokkeren van GPTBot, ClaudeBot of PerplexityBot betekent kiezen voor onzichtbaarheid in kanalen die nu wekelijks 800 miljoen ChatGPT-gebruikers, maandelijks 780 miljoen Perplexity-zoekopdrachten en bijna 50% van de Google-zoekopdrachten die een AI Overview activeren, aantrekken. Omgekeerd, door deze bots toe te staan en tegelijkertijd een duidelijke llms.txt te publiceren, positioneer je jezelf als een bron die in aanmerking komt voor citatie.
Eerste concrete actie deze week: haal je huidige robots.txt op (curl https://votresite.com/robots.txt), controleer of er geen belangrijke AI-crawlers per ongeluk geblokkeerd zijn, en publiceer een minimale llms.txt met je 10 tot 15 strategische pagina's.
Voor meer informatie, twee bronnen: onze complete GEO-auditgids die robots.txt, llms.txt, schema en redactionele structuur omvat, en onze pijlergids voor optimalisatie voor AI-engines. Als u uw configuratie door ons team wilt laten controleren, neem contact op met PingPrime.