Vous pouvez souhaiter crawler qu'une partie de votre site Web. Vous pouvez limiter le crawl à certains sous-domaines en les répertoriant comme URL de départ et en vous assurant que l'option "crawl subdomains" est désactivée.
Mais que faire si la partie du site Web que vous voulez crawler n'est pas un sous-domaine ?
Une solution consiste à utiliser un fichier robots.txt virtuel, qui ne s'appliquera qu'au robot Oncrawl pendant le crawl et n'affectera pas le fichier robots.txt de votre site Web.
Avant de commencer : valider votre site web
Comme vous devrez utiliser un fichier robots.txt virtuel, vous devrez valider le site que vous souhaitez explorer. Cela nous permet de savoir que vous avez la permission d'ignorer la configuration du site.
Si vous n'êtes pas sûr d'avoir déjà validé votre projet, vous pouvez suivre les étapes un et deux ci-dessous. Si votre projet est déjà validé, nous vous le ferons savoir sur la page de validation du projet.
Depuis la page d'accueil de votre projet (ou toute autre page du projet), en haut à droite, cliquez sur les trois points pour ouvrir le menu du projet.
Sélectionnez "Verify ownership".
Suivez les étapes pour nous fournir les informations nécessaires à la validation de votre projet.
Configurez un nouveau crawl avec un fichier robots.txt virtuel
Il est maintenant temps d'appuyer sur le bouton "set up a new crawl". Pour limiter l'exploration aux seules URLs situées sous la partie /blog/ de notre site, nous allons maintenant configurer un fichier robots.txt virtuel :
Sur la page d'accueil du projet, cliquez sur "Set up a new crawl".
En haut de la page, assurez-vous que les paramètres supplémentaires sont affichés. Si le bouton de basculement est gris, cliquez sur "Show extra settings" pour les afficher.
Scroll down to the "Extra settings" section and click on "Virtual robots.txt" to expand the section.
Tick "Enable virtual robots.txt" and click the "+" to add a new virtual robots.txt file.
Par défaut, nous remplissons le champ de saisie avec le contenu du fichier robots.txt original, précédé de lignes commentées qui peuvent être utilisées pour donner accès au site web à notre robot :
Nous pouvons modifier cette partie pour indiquer au robot OnCrawl de ne suivre que certaines URL du site web, par exemple de ne suivre que les liens commençant par http://www.oncrawl.com/blog/, procédez comme suit :
User-Agent: OnCrawl
Allow: /blog/
Disallow: /
Nous pouvons maintenant sauvegarder la configuration. A ce moment, une vérification est effectuée pour s'assurer que notre bot pourra explorer le site web avec les paramètres donnés.
Par exemple, si l'URL de démarrage n'est pas autorisée par le fichier robots.txt, vous aurez une erreur. Assurez-vous que l'URL de démarrage est autorisée par le fichier robots.txt virtuel !
Vous pouvez maintenant cliquer sur "Save and launch crawl" !
Vérifiez si un profil de crawl utilise un fichier robots.txt virtuel
Vous pouvez jeter un coup d'œil rapide sur le site virtual robots.txt actif pour n'importe quel crawl en survolant le "i" à côté du profil de crawl indiqué sur la page d'accueil du projet et en cliquant sur "show" :