Définition SEO

Robots.txt

"

Le fichier robots.txt est un fichier texte placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages ou sections ils sont autorisés ou non à explorer. C'est la première ligne de contrôle du crawl.

Comment configurer son robots.txt pour optimiser le crawl sans bloquer des pages importantes ?

Le robots.txt utilise le protocole d’exclusion des robots. Sa syntaxe est simple : User-agent désigne le robot concerné (* pour tous), Disallow bloque une URL ou un dossier, Allow autorise explicitement une URL dans un dossier bloqué. On peut également y indiquer l’URL du sitemap XML.

Une nuance fondamentale à comprendre : bloquer une URL dans robots.txt ne l’empêche pas d’être indexée si elle reçoit des liens. Robots.txt empêche l’exploration, pas l’indexation. Pour désindexer une page, il faut utiliser une balise noindex — mais cette page doit rester accessible à Googlebot pour qu’il puisse lire la directive.

Les erreurs classiques : bloquer accidentellement des ressources CSS/JS nécessaires au rendu, laisser un robots.txt de développement (Disallow: /) en production, ou bloquer des dossiers d’images qui empêchent l’indexation dans Google Images.

Exemple concret

Un site WordPress bloque correctement /wp-admin/ mais bloque par erreur /wp-content/uploads/, empêchant Googlebot d’explorer les images. Résultat : toutes les images du site disparaissent de Google Images et les pages perdent les signaux visuels qui contribuaient à leur pertinence pour certaines requêtes.

FAQ — Robots.txt

Vous avez un projet SEO ?

Mettons ce savoir en pratique pour votre site.