Définition SEO

Robots.txt

Q: Bloquer une URL dans robots.txt l'empêche-t-elle d'être indexée ?

Non. Robots.txt empêche l'exploration, pas l'indexation. Si une page bloquée reçoit des liens externes, Google peut l'indexer sans l'avoir crawlée. Pour désindexer une page, il faut utiliser une balise noindex.

Q: Le robots.txt est-il obligatoire ?

Non, il est optionnel. Sans fichier robots.txt, les robots explorent librement l'ensemble du site. Il devient nécessaire quand on veut contrôler le crawl ou protéger certaines sections techniques.

Q: Peut-on avoir plusieurs fichiers robots.txt ?

Non, il ne peut y en avoir qu'un seul par domaine, placé à la racine. Pour les sous-domaines, chaque sous-domaine peut avoir son propre fichier robots.txt indépendant.

Le fichier robots.txt est un fichier texte placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages ou sections ils sont autorisés ou non à explorer. C'est la première ligne de contrôle du crawl.

Explication approfondie

Comment configurer son robots.txt pour optimiser le crawl sans bloquer des pages importantes ?

Le robots.txt utilise le protocole d’exclusion des robots. Sa syntaxe est simple : User-agent désigne le robot concerné (* pour tous), Disallow bloque une URL ou un dossier, Allow autorise explicitement une URL dans un dossier bloqué. On peut également y indiquer l’URL du sitemap XML.

Une nuance fondamentale à comprendre : bloquer une URL dans robots.txt ne l’empêche pas d’être indexée si elle reçoit des liens. Robots.txt empêche l’exploration, pas l’indexation. Pour désindexer une page, il faut utiliser une balise noindex — mais cette page doit rester accessible à Googlebot pour qu’il puisse lire la directive.

Les erreurs classiques : bloquer accidentellement des ressources CSS/JS nécessaires au rendu, laisser un robots.txt de développement (Disallow: /) en production, ou bloquer des dossiers d’images qui empêchent l’indexation dans Google Images.

Exemple concret

Un site WordPress bloque correctement /wp-admin/ mais bloque par erreur /wp-content/uploads/, empêchant Googlebot d’explorer les images. Résultat : toutes les images du site disparaissent de Google Images et les pages perdent les signaux visuels qui contribuaient à leur pertinence pour certaines requêtes.

Questions fréquentes

FAQ — Robots.txt

Bloquer une URL dans robots.txt l'empêche-t-elle d'être indexée ?

Le robots.txt est-il obligatoire ?

Peut-on avoir plusieurs fichiers robots.txt ?

Vous avez un projet SEO ?

Mettons ce savoir en pratique pour votre site.

Robots.txt

Comment configurer son robots.txt pour optimiser le crawl sans bloquer des pages importantes ?

FAQ — Robots.txt

Vous avez un projet SEO ?

Accompagnement SEO

Audit Netlinking

Audit Technique

Audit Sémantique

Typologie d’entreprise

Zone d’intervention

Robots.txt

Comment configurer son robots.txt pour optimiser le crawl sans bloquer des pages importantes ?

FAQ — Robots.txt

Termes liés à Robots.txt

Vous avez un projet SEO ?

Accompagnement SEO

Audit Netlinking

Audit Technique

Audit Sémantique

Typologie d’entreprise

Zone d’intervention