Le fichier robots.txt est un fichier texte placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages ou sections ils sont autorisés ou non à explorer. C'est la première ligne de contrôle du crawl.
Explication approfondie
Le robots.txt utilise le protocole d’exclusion des robots. Sa syntaxe est simple : User-agent désigne le robot concerné (* pour tous), Disallow bloque une URL ou un dossier, Allow autorise explicitement une URL dans un dossier bloqué. On peut également y indiquer l’URL du sitemap XML.
Une nuance fondamentale à comprendre : bloquer une URL dans robots.txt ne l’empêche pas d’être indexée si elle reçoit des liens. Robots.txt empêche l’exploration, pas l’indexation. Pour désindexer une page, il faut utiliser une balise noindex — mais cette page doit rester accessible à Googlebot pour qu’il puisse lire la directive.
Les erreurs classiques : bloquer accidentellement des ressources CSS/JS nécessaires au rendu, laisser un robots.txt de développement (Disallow: /) en production, ou bloquer des dossiers d’images qui empêchent l’indexation dans Google Images.
Un site WordPress bloque correctement /wp-admin/ mais bloque par erreur /wp-content/uploads/, empêchant Googlebot d’explorer les images. Résultat : toutes les images du site disparaissent de Google Images et les pages perdent les signaux visuels qui contribuaient à leur pertinence pour certaines requêtes.
Questions fréquentes
Non. Robots.txt empêche l'exploration, pas l'indexation. Si une page bloquée reçoit des liens externes, Google peut l'indexer sans l'avoir crawlée. Pour désindexer une page, il faut utiliser une balise noindex.
Non, il est optionnel. Sans fichier robots.txt, les robots explorent librement l'ensemble du site. Il devient nécessaire quand on veut contrôler le crawl ou protéger certaines sections techniques.
Non, il ne peut y en avoir qu'un seul par domaine, placé à la racine. Pour les sous-domaines, chaque sous-domaine peut avoir son propre fichier robots.txt indépendant.
À explorer aussi
Des notions proches pour approfondir votre compréhension du SEO.
Mettons ce savoir en pratique pour votre site.