Lors de la gestion de vos articles liés à l'actualité, vous pourriez avoir besoin de consulter les données relatives aux articles publiés dans les sept derniers jours, entre huit et trente jours, entre trente et un et 90 jours, ou avant les 90 derniers jours.

Avec OnCrawl, vous pouvez établir une segmentation pour ces dates relatives (ou "dates glissantes") et même réutiliser cette segmentation pour de futurs crawls.

Pour mettre en place et utiliser cette segmentation, les crawls initiaux et futurs doivent être exécutés avec un scraping de données afin de pouvoir analyser la date de publication, trouvée dans les données de schema.org dans le HTML des pages de l'article.

Nous fournissons un exemple de segmentation par mois au bas de cet article, que vous pouvez copier-coller.

Mettre en place un crawl avec un scraping de données pour la datePublished

Pour obtenir la date de publication de toutes les pages d'articles, nous allons rechercher les données structurées de schema.org pour les articles de presse, et nous rassemblerons la valeur du champ datePublished dans une métrique OnCrawl que nous nommerons "datePublished".

Nous vous montrerons deux méthodes différentes en fonction du formatage de vos dates de publication : en utilisant JSON-LD ou en tant que méta-propriétés (itemprop).

Méthode 1 : Pour les données structurées de schema.org utilisant JSON-LD

Commencez par mettre en place un crawl avec scraping de données :

1. Sur la page d'accueil du projet, cliquez sur "+ Set up new crawl".

2. Sous "Analysis", cliquez sur "Scraping" pour développer la section.

3. Cochez la case "Enable scraping".

Note : si votre souscription n’inclut pas de scraping, veuillez en contacter votre gestionnaire de compte pour l'adapter.

4. Dans le champ "Custom field name", entrez "datePublished".

Vous devez utiliser ce nom exact si vous avez l'intention d'utiliser les exemples de segmentations fournis ci-dessous.

5. Dans le champ "Parsing", remplissez les informations suivantes pour l'étape 1 :

- Rule kind: REGEX
- Rule: \"datePublished\":\"([0-9]{4}-[0-9]{2}-[0-9]{2})

Cette séquence recherche l'expression "datePublished" :" suivie d'une séquence au format 0000-00-00, où 0 est un chiffre quelconque de 0 à 9.

- Output pattern (optional): {0}

Ce modèle de sortie indique que nous voulons enregistrer la première séquence dans la regex ci-dessus, exactement dans le format que nous l'avons trouvé. Il s'agit du modèle de sortie par défaut, nous pouvons donc également laisser ce champ vide.

6. Sous Export, sélectionnez :

- Keep…: First value
- As…: Date value (e.g. "YYYY-MM-DD")

7. Dans la case "Check output" en bas à gauche, sélectionnez "Using URL".

- Fournissez un exemple d'URL de votre site qui inclut une datePublished.

- Cliquez sur "Check" pour vous assurer que cette règle de scraping fonctionne pour votre site. La date de publication correcte doit apparaître dans la case "Check result" à droite.

8. Cliquez sur "Save custom field".

Maintenant, lancez un crawl pour extraire la datePublished de vos pages.

Méthode 2 : Pour les données structurées de schema.org utilisant des métadonnées au format <time itemprop="datePublished">

Commencez par mettre en place un crawl avec scraping de données :

1. Sur la page d'accueil du projet, cliquez sur "+ Set up new crawl".

2. Sous "Analysis", cliquez sur "Scraping" pour étendre la section.

3. Cochez la case "Enable scraping".

Note : si votre souscription n’inclut pas de scraping, veuillez en contacter votre gestionnaire de compte pour l'adapter.

4. Dans le champ "Custom field name", entrez "datePublished".

Vous devez utiliser ce nom exact si vous avez l'intention d'utiliser les exemples de segmentations fournis ci-dessous.

5. Dans le champ "Parsing", remplissez les informations suivantes pour l'étape 1 :

- Rule kind: XPATH
- Rule: //time[@itemprop="datePublished"]

Cette règle recherche une balise temporelle avec une propriété itemprop définie sur "datePublished".

6. Cliquez sur "+" pour ajouter une étape. Complétez les informations suivantes pour l'étape 2 :

- Rule kind: XPATH
- Rule: string(//@datetime)

Cette règle recherche la chaîne de texte contenue dans la propriété datetime.

7. Cliquez sur "+" pour ajouter une étape. Remplissez les informations suivantes pour l'étape 3

- Rule: ([0-9]{4}-[0-9]{2}-[0-9]{2})

Cette règle recherche une séquence au format 0000-00-00, où 0 est un chiffre quelconque de 0 à 9.

- Output pattern (optional): {0}

Ce modèle de sortie indique que nous voulons enregistrer la première séquence dans la regex ci-dessus, exactement dans le format que nous l'avons trouvé. Il s'agit du modèle de sortie par défaut, nous pouvons donc également choisir de laisser ce champ vide.

8. Sous “Export”, sélectionnez :

- Keep…: First value
- As…: Date value (e.g. "YYYY-MM-DD")

9. Dans la case "Check output" en bas à gauche, sélectionnez "Using URL".

- Fournissez un exemple d'URL de votre site qui inclut une datePublished.

- Cliquez sur "Check" pour vous assurer que cette règle de scraping fonctionne pour votre site. La date de publication correcte doit apparaître dans la case "Check result" à droite.

10. Cliquez sur "Save custom field".

Maintenant, lancez un crawl pour extraire la datePublished de vos pages.

Mettre en place une segmentation pour les fourchettes de dates glissantes basée sur la datePublished

Note : Pour utiliser la datePublished comme mesure de segmentation, vous devez avoir un crawl antérieur qui a scrapé la datePublished dans le HTML de vos pages pendant le crawl.

Cette segmentation s'appliquera au crawl initial et aux crawls ultérieurs qui ont scrapé des données dans un champ de date appelé datePublished.

Voici deux façons de procéder : soit en partant de zéro, soit en copiant et collant notre exemple.

Méthode 1 : créer une segmentation à partir de zéro en utilisant vos propres plages de dates

Préparez la segmentation :

1. À partir de la page d'accueil du projet, faites défiler la page jusqu'à la section "Analysis" et cliquez sur le bouton "Configure segmentation". Cela vous amènera à la page Segmentation.

2. Cliquez sur le bouton "+ Create segmentation" en haut de la page.

3. Sélectionnez "From scratch" et cliquez sur "Continue".

4. Entrez un nom pour la segmentation. Appelons-la "Publication date".

5. Cliquez sur "Create segmentation". Cela vous amènera à la page de segmentation pour votre nouvelle segmentation.

Créez un groupe de pages pour chaque plage de dates et définissez la définition de chaque groupe à l'aide d'une expression régulière.

1. Cliquez sur "+ Create page group" en haut à droite de la page.

2. Entrez un nom pour le groupe de pages.

3. Choisissez une couleur qui représentera ce groupe dans tous les graphiques OnCrawl.

4. Placez le groupe en dernier dans la série des groupes de pages.

5. Cliquez sur "Create page group". Cela vous amènera à la page où vous pourrez indiquer les pages à mettre dans ce groupe.

1. Choisissez la métrique à laquelle vous voulez appliquer l'expression régulière : "Custom field: datePublished".

2. Choisissez l'opérateur, et entrez la date la plus ancienne et la date la plus récente, par rapport à maintenant. OnCrawl utilise des calculs de date basés sur la syntaxe fournie par Elastic.

Voici quelques exemples:

Published in the last week
Group name: Last week
Operator: between
Earliest value: now-1W
Latest value: now

Published within the last month, but before the last week
Group name: Last month
Operator: between
Earliest value: now-1M
Latest value: now-1W

Published within the last 90 days, but before the last month
Group name: Last 90 days
Earliest value: now-90D
Latest value: now-1M

Published before the last 90 days
Group name: Older
Operator: less than
Value: now-3M

Has no date value
Group name: No date
Operator: has no value

3. Cliquez sur "Refresh matching URLs" pour vous assurer que tout fonctionne correctement.

4. Cliquez sur "Save changes".

Méthode 2 : Créer une segmentation en copiant et collant notre segmentation basée sur le mois

Préparez la segmentation:

1. Depuis la page d'accueil du projet, faites défiler la page jusqu'à la section "Analysis" et cliquez sur le bouton "Configure segmentation". Cela vous amènera à la page Segmentation.

2. Cliquez sur le bouton "+ Create segmentation" en haut de la page.

3. Sélectionnez "From existing set or import" et cliquez sur "Continue".

4. Choisissez la méthode "Paste JSON". Un champ de texte apparaîtra.

5. Collez le texte complet de la segmentation ci-dessous et cliquez sur "Continue" :

[
{
"name": "current month",
"color": "#F1C8AE",
"oql": {
"field": [
"custom_datePublished",
"between",
[
"now/M",
"now"
]
]
}
},
{
"name": "month -1 ",
"color": "#E69F9E",
"oql": {
"field": [
"custom_datePublished",
"between",
[
"now-1M/M",
"now/M"
]
]
}
},
{
"name": "month - 2",
"color": "#DC778E",
"oql": {
"field": [
"custom_datePublished",
"between",
[
"now-2M/M",
"now-1M/M"
]
]
}
},
{
"name": "month -3",
"color": "#C65787",
"oql": {
"field": [
"custom_datePublished",
"between",
[
"now-3M/M",
"now-2M/M"
]
]
}
},
{
"name": "quarter -1",
"color": "#9B448B",
"oql": {
"field": [
"custom_datePublished",
"between",
[
"now-6M/M",
"now-3M/M"
]
]
}
},
{
"name": "quarter -2",
"color": "#703290",
"oql": {
"field": [
"custom_datePublished",
"between",
[
"now-9M/M",
"now-6M/M"
]
]
}
},
{
"name": "quarter -3",
"color": "#32164B",
"oql": {
"field": [
"custom_datePublished",
"between",
[
"now-12M/M",
"now-9M/M"
]
]
}
},
{
"name": "no date",
"color": "#333333",
"oql": {
"field": [
"custom_datePublished",
"has_no_value",
""
]
}
}
]

1. Entrez un nom pour la segmentation. Appelons-la "Publication date".

2. Cliquez sur "Create segmentation". Cela vous amènera à la page de segmentation pour votre nouvelle segmentation.

Vous verrez que les groupes de pages ont déjà été créés pour le mois en cours, le mois 1, le mois 2, le mois 3, le trimestre 1, le trimestre 2, le trimestre 3 et aucune date.

Appliquer une segmentation basée sur la datePublished (date publié)

Retournez à la page d'accueil de votre projet et cliquez sur n'importe quelle analyse d'un crawl dont la date de publication a été écourtée pour voir les résultats de l'analyse.

En haut de la page, utilisez le menu déroulant "Segmentation" pour sélectionner la segmentation "Publication date" que vous venez de créer.

Note : Les groupes qui sont affichés sont basés sur la date du jour. Cela signifie, par exemple, que si votre crawl date de plus d'une semaine, vous ne verrez aucun article dans le groupe "Last week". Cela s'explique par le fait que la date de publication la plus récente connue dans OnCrawl pour ce crawl est antérieure à la semaine en cours.

Vous pouvez également vous concentrer sur l'un des groupes de pages de la segmentation en modifiant le groupe sélectionné dans le deuxième menu déroulant, "Base filter".

Aller plus loin

Si vous avez encore des questions, écrivez-nous à @oncrawl_cs ou cliquez sur le bouton Intercom en bas à droite de votre écran pour entamer une discussion avec nous.

Happy crawling !

Avez-vous trouvé votre réponse?