Le crawl est le processus par lequel les robots des moteurs de recherche parcourent automatiquement les pages d'un site en suivant les liens, afin de découvrir, analyser et transmettre leur contenu à l'index du moteur de recherche.
Explication approfondie
Le crawl est la première étape du référencement : sans exploration, pas d’indexation, et donc pas de positionnement. Les robots suivent les liens hypertextes de page en page. La profondeur de crawl désigne le nombre de clics nécessaires depuis la page d’accueil pour atteindre une page — plus une page est profonde, moins elle sera crawlée fréquemment.
Plusieurs facteurs influencent la qualité du crawl : la vitesse de réponse du serveur, la structure du maillage interne, les directives du fichier robots.txt, et la présence d’un sitemap XML. Un site lent ou mal structuré verra son budget crawl gaspillé sur des pages sans valeur.
Les erreurs qui freinent le crawl : les redirections en chaîne, les pages orphelines (sans aucun lien interne), le contenu dupliqué, les paramètres d’URL non maîtrisés, et les spider traps qui génèrent des URLs à l’infini.
Un blog publie 500 articles mais les classe sur 10 niveaux de profondeur. Googlebot, après avoir exploré la page d’accueil et quelques niveaux, épuise son budget crawl sans jamais atteindre les articles les plus anciens. En restructurant le maillage interne pour que tous les articles soient accessibles en moins de 3 clics depuis la homepage, l’intégralité du contenu devient crawlable.
Questions fréquentes
Le crawl est l'exploration de la page par Googlebot. L'indexation est l'enregistrement de cette page dans la base de données de Google. Une page peut être crawlée sans être indexée (noindex, thin content, duplication).
Via l'analyse des logs serveur et via l'outil d'inspection d'URL dans Google Search Console qui montre la dernière date de crawl d'une page spécifique.
Difficilement. Sans liens internes pointant vers elle, Googlebot n'a aucun chemin pour la découvrir. Elle peut être crawlée si elle figure dans le sitemap XML ou si des liens externes pointent directement vers elle.
À explorer aussi
Des notions proches pour approfondir votre compréhension du SEO.
Mettons ce savoir en pratique pour votre site.