Le crawl budget désigne le nombre de pages que Googlebot est prêt à explorer sur un site dans un laps de temps donné. Ce quota est influencé par l'autorité du domaine et la santé technique du site. Une fois épuisé, le robot quitte le site sans avoir visité toutes les URLs.
Explication approfondie
Le crawl budget est surtout critique pour les sites de plusieurs milliers de pages : e-commerce, médias, annuaires. Pour un site de 50 pages avec un bon maillage, Google explore généralement tout sans problème.
Il est déterminé par deux composantes : le crawl rate limit (la fréquence à laquelle Googlebot peut crawler sans surcharger le serveur) et la crawl demand (la popularité et la fraîcheur des URLs). Plus un domaine a d’autorité et de contenu mis à jour régulièrement, plus Google lui alloue un budget généreux.
Pour optimiser son budget crawl : bloquer les URLs sans valeur SEO via robots.txt ou noindex (paramètres, filtres, pages de tri), corriger les erreurs 404 et les redirections en chaîne, supprimer le contenu dupliqué, améliorer la vitesse serveur, et maintenir un sitemap XML pointant uniquement vers les URLs canoniques.
Un site e-commerce génère automatiquement des URLs du type /chaussures?couleur=rouge&taille=42&tri=prix. Sans configuration, Googlebot explore ces milliers de variantes et n’a plus de budget pour crawler les fiches produits réelles. Bloquer ces paramètres via robots.txt permet de rediriger tout le budget crawl vers les pages qui ont une réelle valeur commerciale.
Questions fréquentes
Non, il est principalement critique pour les sites de plus de 10 000 pages. Pour un site de quelques centaines de pages avec un bon maillage, Google explore généralement tout le contenu sans problème.
En analysant les logs serveur filtrés sur le user-agent Googlebot. Google Search Console donne aussi une estimation via le rapport de couverture, mais l'analyse de logs est bien plus précise.
Oui. Googlebot doit crawler une page pour lire sa directive noindex. Si ces pages sont nombreuses, il vaut mieux les bloquer dans robots.txt — mais dans ce cas elles peuvent rester indexées si elles ont des liens externes.
À explorer aussi
Des notions proches pour approfondir votre compréhension du SEO.
Mettons ce savoir en pratique pour votre site.