Lors d'un crawl, un bot se déplace sur un site web. Certaines URL n'apparaîtront pas du tout dans les résultats du crawl ; certaines pages sont connues, mais ne sont pas crawlées. D'autres encore sont atteintes par le robot OnCrawl, mais ne sont pas analysées.

Nous allons voir ci-dessous comment savoir quelles pages le robot OnCrawl peut trouver, quelles pages il va explorer et quelles pages il analyse.

Quels types de pages le robot OnCrawl connaît-il ?

Le bot OnCrawl sait que les pages suivantes existent :

  • Toutes les pages qui sont liées à une page connue, même si le lien est un lien non suivi.
    Il s'agit des pages dans la structure du site.

  • Toutes les pages qui sont répertoriées dans des sources supplémentaires : sitemaps, fichiers d'ingestion de données, ou ensembles de données connectés (Google Analytics, Adobe Analytics, AT Internet, backlinks Majestic, Google Search Console, données de log...)
    Certaines de ces pages-ci ne sont peut-être pas trouvables dans la structure de votre site : il s'agit alors de pages orphelines.

A moins qu'elles n'apparaissent dans des sources supplémentaires, le robot OnCrawl ne connaît pas les pages des répertoires qui sont refusées aux robots dans le fichier robots.txt.

Quels types de pages sont explorées par le robot OnCrawl ?

Ce n'est pas parce que le robot OnCrawl a appris qu'une page existe qu'elle sera explorée.

Nous explorons les pages qui entrent dans le champ d'application de l'exploration et qui n'interdisent pas le crawl par les robots via le robots.txt (ou le robots.txt virtuel, si vous en utilisez un). Cela peut inclure :

  • Les pages HTML dans la structure du site de vos domaines, jusqu'à la profondeur de la page et le nombre d'URL utilisés comme limites d'exploration

  • Pages HTML dans les sous-domaines, si vous avez coché "crawl subdomains".

  • Les pages HTML avec une balise meta "noindex" (qui, pour rappel, peuvent être sont crawlées mais pas indexées par les robots des moteurs de recherche), les pages avec des codes d'état d'erreur HTTP, les pages canonisées...

Ce comportement peut être modifié lors du paramétrage d'un crawl, sous Crawler behavior :

Nous recherchons ou récupérons des informations pour toutes les pages que nous parcourons. Dans l'explorateur de données, vous pouvez trouver des informations sur l'exploration en ajoutant des colonnes liées au robot OnCrawl, comme par exemple

  • Fetch status : si le robot a reçu une réponse ou non

  • Fetch date : la date et l'heure de la frappe du robot sur la page

Quels types de pages sont analysés dans les tableaux de bord et graphiques des résultats du crawl ?

La plupart des graphiques OnCrawl sont basés sur des pages conformes :

  • Les balises méta-robots de la page permettent d'indexer la page.

  • Le code d'état HTTP de la page est OK (200).

  • La page n'a pas d'URL canonique ou est sa propre URL canonique.

  • La page est une page HTML (par opposition à une ressource, telle qu'un fichier CSS ou un fichier image).

Vous pouvez vérifier quelles pages sont incluses dans un graphique en cliquant sur le graphique pour voir le filtre OnCrawl Query Language dans l'explorateur de données qui correspond au graphique.

Quelles informations sont récupérées pour une page analysée ?

Toutes les informations qu'OnCrawl obtient sur une page sont disponibles sur la page des détails de l'URL (URL details). Vous trouverez cette page sous la rubrique Tools au bas de la barre latérale dans n'importe quel rapport d'onCrawl.

Aller plus loin

Si vous avez encore des questions, écrivez-nous à @oncrawl_cs ou cliquez sur le bouton Intercom en bas à droite de votre écran pour entamer une discussion avec nous.

Bonne exploration !

Avez-vous trouvé votre réponse?