Les expressions régulières (regex) sont utilisées pour trouver un certain type d'expression en fonction du modèle des types de caractères dans l'expression que vous recherchez.

Vous pouvez utiliser les expressions régulières pour créer des groupes de pages.

Nous allons vous guider dans la création de groupes de pages pour les exemples suivants :

Vous pouvez adapter ces exemples aux types d'expressions de votre propre site web.

Toute métrique avec du contenu textuel peut être utilisée pour créer un groupe de pages en utilisant une regex. OnCrawl utilise la regex Lucene (voici notre guide pour l’écriture de la syntaxe).

Exemple 1 : Groupe de pages pour les pages avec un slug numérique

Notre site contient une section de pages dont les URL contiennent des slugs composées de chiffres, plutôt que du texte lisible par l'homme. Voici quelques exemples :

https://www.mysite.com/articles/5473/

https://www.mysite.com/products/811/

https://www.mysite.com/96/mypage

Nous pouvons créer un groupe de pages pour ces pages.

Préparer le groupe de pages :

  1. À partir de la page d'accueil du projet, faites défiler la page jusqu'à la section "Analysis" et cliquez sur le bouton "Setup segmentation". Cela vous amènera à la page "Segmentation".

  2. Cliquez sur le bouton "+ Create a segmentation" en haut de la page.

  3. Sélectionnez "Start from scratch".

  4. Entrez un nom pour la segmentation. Appelons-la "Slug numérique".

  5. Cliquez sur "OK". Cela vous amènera à la page de segmentation pour votre nouvelle segmentation.

  6. Cliquez sur l'icône du nouveau groupe en haut de la liste des groupes à gauche de la page.

  7. Entrez un nom pour le groupe de pages. Appelons-le "Contient slug numérique". Lorsque vous cliquez sur "OK", le groupe apparaît. Vous verrez que la partie à droite de la page énumère maintenant les règles qui déterminent les pages à mettre dans ce groupe.

Mettre en place la définition à l'aide d'une expression régulière :

  1. Choisissez la métrique à laquelle appliquer l'expression régulière. Comme nous cherchons une série de chiffres n'importe où dans l'URL, sélectionnez "Full URL".

  2. Choisissez l'opérateur. Puisque nous cherchons une partie de l'URL, choisissez "contains". Si l'ID du produit n'apparaît qu'à la fin de l'URL, vous pouvez également choisir "ends with".

  3. Cliquez sur le bouton ".*" pour activer les expressions régulières.

  4. Entrez l'expression régulière suivante dans le dernier champ : /[0-9]+/ Cette expression recherche une barre oblique suivie d'un ou plusieurs chiffres, puis d'une autre barre oblique.

  5. Cliquez sur "Refresh matching URLs" pour vous assurer que tout fonctionne correctement.

Exemple 2 : Groupe de pages pour les pages contenant un ID numerical de produit

Notre site contient une section de pages dont les URL contiennent un nom de produit, suivi d'un trait d'union et d'un ID de produit composé de 5 chiffres. Voici quelques exemples :

Nous pouvons créer un groupe de pages pour ces pages. Créez une nouvelle segmentation, ou ajoutez simplement un nouveau groupe à un groupe existant.

Cliquez sur votre nouveau groupe pour créer les règles à l'aide d'une expression régulière :

  1. Dans la partie à droite où vous pouvez définir les règles pour ce groupe, choisissez la métrique à laquelle appliquer l'expression régulière. Comme nous recherchons un modèle n'importe où dans l'URL, sélectionnez "Full URL".

  2. Choisissez l'opérateur. Puisque nous recherchons une partie de l'URL, choisissez "contains".

  3. Cliquez sur le bouton ".*" pour activer les expressions régulières.

  4. Entrez l'expression régulière suivante dans le dernier champ : /[a-zA-Z\-\_]+-[0-9]{5}/. Cette expression recherche une barre oblique suivie d'un nom de produit qui n'est pas sensible à la casse et qui peut contenir des lettres, des traits de soulignement ou des tirets, suivi d'un trait d'union, suivi de cinq chiffres, suivi d'une autre barre oblique.

  5. Cliquez sur "Refresh matching URLs" pour vous assurer que tout fonctionne correctement.

  6. Cliquez sur "Save changes".

Exemple 3 : Groupes de pages pour les pages avec des extensions htm ou html, toutes les autres extensions, et aucune extension

Notre site contient une section de pages dont les URL contiennent parfois des extensions de fichiers.

Nous allons créer une segmentation avec un groupe de pages pour chacun des cas suivants :

Tout d'abord, créez votre segmentation. Vous pouvez utiliser le bouton "Configure segmentation" sur la page d'accueil du projet.

Vous voudrez lui donner un nom significatif, comme "Extensions".

Préparer le premier groupe de pages

  1. Sur la gauche, cliquez sur le bouton bleu à côté de la liste des groupes pour créer votre premier groupe.

  2. Entrez un nom pour le premier groupe de pages. Appelons-le "html / htm".

  3. Cliquez sur "OK". Le groupe sera créé. Ses informations apparaîtront sur la droite, où vous pourrez indiquer les pages à mettre dans ce groupe.

  4. Choisissez la métrique à laquelle appliquer l'expression régulière. Comme nous cherchons un modèle dans l'URL, sélectionnez "Full URL".

  5. Choisissez l'opérateur. Puisque nous recherchons un modèle à la fin de l'URL, choisissez "ends with".

  6. Cliquez sur le bouton ".*" pour activer les expressions régulières.

  7. Entrez l'expression régulière suivante dans le dernier champ : \.html? Cette expression recherche un point, suivi de htm, suivi d'un l optionnel.

  8. Cliquez sur "Refresh matching URLs" pour vous assurer que tout fonctionne correctement.

Créer un deuxième groupe de pages et définir sa définition à l'aide d'une expression régulière

  1. Cliquez sur le bouton "New group" dans la liste des groupes à gauche.

  2. Entrez un nom pour le deuxième groupe de pages. Appelons-le "autres extensions".

  3. Cliquez sur "OK". Le groupe sera créé. Ses informations apparaîtront sur la droite, où vous pourrez indiquer les pages à mettre dans ce groupe.

  4. Choisissez la métrique à laquelle appliquer l'expression régulière. Comme nous cherchons un modèle dans l'URL, sélectionnez "Full URL".

  5. Choisissez l'opérateur. Puisque nous recherchons un modèle à la fin de l'URL, choisissez "ends with”.

  6. Cliquez sur le bouton ".*" pour activer les expressions régulières.

  7. Entrez l'expression régulière suivante dans le dernier champ : \.[a-zA-Z]+ Cette expression permet de rechercher un point, suivi d'une ou plusieurs lettres majuscules ou minuscules.

À ce stade, nous avons un groupe de pages qui répertorie toutes les URL avec des extensions, y compris les extensions htm et html. Si vous cliquez sur "Refresh matching URLs" puis, au-dessus des listes d'URL ci-dessous, sur "Groups overlaps", vous verrez "Overlaps avec html / htm". Toutes les pages de notre filtre de groupe de pages "html / htm" sont listées ici.

Corrigeons cela.

Corriger la définition de ce groupe de pages pour exclure les extensions html et htm :

  1. Dans le bloc "OnCrawl Query Language", cliquez sur "Add field".

  2. Assurez-vous que l'opérateur "AND" en haut de la page est sélectionné.

  3. Choisissez "Full URL" dans le menu déroulant "Select field".

  4. Choisissez l'opérateur. Comme nous cherchons un modèle à la fin de l'URL que nous voulons exclure, choisissez "not ends with".

  5. Cliquez sur le bouton ".*" pour activer les expressions régulières.

  6. Entrez l'expression régulière suivante dans le dernier champ : \.html? Cette expression recherche un point, suivi de htm, suivi d'un l optionnel.

  7. Cliquez sur "Refresh matching URLs" pour vous assurer que tout fonctionne correctement.

À ce stade, vous ne devriez plus voir d'URL dans la liste "Conflicting URLs".

Créer un troisième groupe de pages et le définir à l'aide d'une expression régulière

Techniquement, toutes les pages avec une extension sont déjà comptabilisées, donc les pages restantes dans "other" devraient être des pages sans extension.

Cependant, pour lever tout doute et limiter l'utilisation de la catégorie automatique "other", nous pouvons créer un groupe de pages pour les pages sans extension :

  1. Cliquez sur le bouton "New group" dans la liste des groupes à gauche.

  2. Entrez un nom pour le deuxième groupe de pages. Appelons-le "sans extension".

  3. Cliquez sur "OK". Le groupe sera créé. Ses informations apparaîtront sur la droite, où vous pourrez indiquer les pages à mettre dans ce groupe.

  4. Choisissez la métrique à laquelle appliquer l'expression régulière. Comme nous cherchons un modèle dans l'URL, sélectionnez "Full URL".

  5. Choisissez l'opérateur. Puisque nous cherchons un modèle à la fin de l'URL que nous ne voulons pas trouver, choisissez "not ends with".

  6. Cliquez sur le bouton ".*" pour activer les expressions régulières.

  7. Entrez l'expression régulière suivante dans le dernier champ : \.[a-zA-Z]+ Cette expression permet de rechercher un point, suivi d'une ou plusieurs lettres majuscules ou minuscules.

  8. Cliquez sur "Refresh matching URLs pour vous assurer que tout fonctionne correctement. Vous ne devriez pas voir de conflits.

  9. Cliquez sur "Save changes".

Dans l'aperçu du crawl à gauche, toutes vos pages devraient être prises en compte par un filtre coloré. Aucune page ne devrait se trouver dans la catégorie grise "other".

Utiliser ces segmentations

Retournez à la page d'accueil de votre projet et cliquez sur n'importe quelle analyse pour en voir les résultats.

En haut de la page, utilisez le menu déroulant "Segmentation" pour sélectionner une des segmentations que vous venez de créer.

Vous pouvez également vous concentrer sur l'un des groupes de pages de la segmentation en changeant le groupe sélectionné dans le second menu déroulant, "Base Filter".

Aller plus loin

Vous voudrez peut-être y jeter un coup d'œil :

Comment créer une segmentation personnalisée

Ou, si vous avez encore des questions, écrivez-nous à @oncrawl_cs ou cliquez sur le bouton Intercom en bas à droite de votre écran pour entamer une discussion avec nous.

Avez-vous trouvé votre réponse?