Toutes les collections
Débuter avec Oncrawl
Crawl
Type de crawl : mode "spider" VS liste d'URLs
Type de crawl : mode "spider" VS liste d'URLs

Comprendre les différentes façons d'explorer des pages avec OnCrawl

Mis à jour il y a plus d’une semaine

Dans ce guide, nous vous présenterons les différentes façons de parcourir vos pages en fonction de vos besoins :

  • Mode araignée

  • A partir de la liste des URL

Mode "spider" (araignée)

Dans ce mode, OnCrawlbot part d'une url donnée, suit tous les outlinks "suivis" qu'il rencontre, explorant ainsi toutes les pages du site, dans les limites données par le nombre maximum d'URL ou la profondeur maximale de crawl, selon ce qui se produit en premier.

L'utilisation de ce mode de découverte vous permet d'avoir un aperçu de vos pages accessibles via les liens internes, de comprendre comment est structurée la structure de votre site via l'analyse de la profondeur et du maillage interne et de voir comment la popularité est répartie entre vos pages (Inrank).

A partir de la liste des URLs

Dans ce mode, Oncrawlbot ne parcourt qu'une liste statique d'urls. Les liens découverts sur ces pages ne sont pas suivis, limitant l'analyse aux pages contenues dans la liste.

En utilisant ce mode, toutes les pages sont considérées comme des urls de départ ; ainsi toutes les pages auront une profondeur égale à 1 et un Inrank égal à 10.

L'analyse étant limitée aux pages contenues dans la liste, les redirections ne seront pas suivies.

Si vous essayez d'explorer toutes les URL d'un plan du site, extrayez d'abord les URL du plan du site, puis fournissez-les dans un fichier au format décrit ci-dessous.

Comment télécharger cette liste ?

  • Dans l'écran de paramétrage du crawl, choisissez les options de la liste d'URL

  • Choisissez ensuite un fichier ou téléchargez un nouveau fichier en cliquant sur le bouton "Télécharger des fichiers", ce qui vous amène à l'interface de gestion des sources de données.

Vous pouvez accéder à tout moment à l'interface de gestion des sources de données à partir de la page d'accueil du projet, en cliquant sur le bouton "Ajouter des sources de données".

Si vous téléchargez une nouvelle liste, n'oubliez pas que vous devrez retourner aux paramètres d'exploration pour choisir votre liste téléchargée et lancer votre exploration !

Format de fichier requis

Le fichier doit se trouver dans une archive ZIP.

  • L'archive doit contenir un fichier en texte clair contenant une liste d'URL, une par ligne.

  • Vous pouvez télécharger un fichier ZIP contenant un ou plusieurs fichier(s) CSV, ou un ou plusieurs fichier(s) TXT

Si vous fournissez plusieurs fichiers dans une archive ZIP, ils doivent obéir aux règles suivantes :

  • Tous les fichiers doivent avoir le même format : tous les CSV, ou tous les TXT

En outre, le contenu de chaque dossier doit obéir aux règles suivantes :

  • Le fichier doit être encodé en UTF-8 si vous devez traiter des caractères non ASCII en valeurs.

  • Chaque ligne doit comporter moins de 1024 caractères.

  • L'url complète doit être fournie

Merci d'avoir lu cet article et bonne exploration !

Avez-vous trouvé la réponse à votre question ?