Dans ce guide, nous allons couvrir :
Comment fonctionne le système d'ajout de données externes ?
Comment utiliser la fonction ?
Format de fichier requis
Comment fonctionne le système d'ajout de données externes dans OnCrawl ?
La Data Ingestion d'OnCrawl permet d'ajouter des champs personnalisés provenant d'un ensemble de données tiers à chaque URL d'un rapport d'exploration et d'enrichir ainsi votre analyse.
Avant de lancer un crawl, vous pouvez fournir un ou plusieurs fichiers contenant les champs de l'ensemble de données externes que vous souhaitez ajouter à votre rapport.
Il vous suffit de vous rendre à la page d'accueil de votre projet et de sélectionner "+ Set up a new crawl". Ensuite, cliquez sur "Ingestion de données" à la fin de la section Analysis.
Cochez la case "Enable data ingestion" pour l'activer et téléchargez votre fichier .zip.
Ensuite, le fichier est traité. Vous pouvez suivre le nombre de lignes analysées et leur statut.
A la fin du crawl, les données ingérées sont fusionnées dans le crawl en utilisant le champ URL comme clé de liaison. Il donc est très important de vérifier que le champ URL des données ingérées est formaté à l'identique par rapport aux URLs utilisées dans le rapport Crawl. (Pour vérifier le format, consultez : Crawl report : URLs fetched by the oncrawlbot).
Exemple :
https://www.oncrawl.com/seo-for-news-website-3-takeaways/
est différent de
https://www.oncrawl.com/seo-for-news-website-3-takeaways
et
https://www.oncrawl.com/seo-for-news-website-3-takeaways/
n'est pas la même chose que
http://www.oncrawl.com/seo-for-news-website-3-takeaways/
Où et comment utiliser la fonction d'ingestion de données ?
Après crawl, vous pouvez visualiser les données tierces ingérées sur :
L'interface de l'explorateur de données (Data Explorer)
L'interface de configuration de la segmentation
L'interface de l'explorateur de données
Utilisez les champs personnalisés tiers pour extraire et visualiser les données à l'aide de requêtes ou en ajoutant des colonnes aux résultats affichés.
Pour parcourir les champs personnalisés que vous avez ajoutés, recherchez les données préfixées par le terme "User data".
Selon leur format, elles peuvent être associées à des filtres "Plus grand que", "Moins que", "Égales"... pour des valeurs numériques par exemple.
Exemples :
Ajouter les données de votre Search Console de Google pour détecter les URL ayant des impressions sur Google mais qui ne sont pas explorées par OnCrawl.
Ajouter des données provenant d'outils de suivi de classement pour analyser les revenus par visites, les ventes moyennes, les conversions de signups, etc.
L'interface de configuration de la segmentation
Utilisez les ensembles de données externes pour créer des groupes de page dans vos segmentations et obtenir de nouvelles informations sur votre site web.
Tout comme dans le Data Explorer, vous pouvez créer des segments qui prennent en compte ces champs et classer des groupes de pages en fonction des valeurs prises par ces champs.
Format de fichier requis
Le fichier peut être formaté soit en CSV soit en JSON, puis fourni dans une archive ZIP. Vous devez télécharger un fichier ZIP contenant un ou plusieurs fichier(s) CSV, ou un ou plusieurs fichier(s) JSON.
Si vous fournissez plusieurs fichiers dans une archive ZIP, ils doivent obéir aux règles suivantes :
Tous les fichiers doivent avoir le même format : tous les CSV, ou tous les JSON
Tous les dossiers doivent avoir le même jeu de champs
En outre, le contenu de chaque dossier doit obéir aux règles suivantes :
Le fichier doit être encodé en UTF-8 si vous devez traiter des caractères non ASCII en valeurs.
Vous pouvez fournir jusqu'à 30 champs par fichier. Leur nom doit être compris dans la plage [a-zA-Z0-9_-].
Chaque ligne doit comporter moins de 1024 caractères.
Les champs peuvent être de type String, Integer ou Float.
Format des nombres : utilisez un point pour séparer les décimales. N'utilisez pas de virgule.
Si vous avez des données éparses, il n'est pas obligatoire de fournir tous les champs pour les URL qui n'en ont pas.
Si vous n'avez pas de données pour une URL, elle peut être absente du fichier.
L'URL complète doit être fournie dans le champ nommé URL (ou url).
Exemple :
/seo-for-news-website-3-takeaways/
n'est pas correct
https://www.oncrawl.com/seo-for-news-website-3-takeaways/
est bon
Il est très important de vérifier que le champ URL dans les données fournies correspond aux URLs du rapport Crawl.
Exemple :
https://www.oncrawl.com/seo-for-news-website-3-takeaways/
est différent de
https://www.oncrawl.com/seo-for-news-website-3-takeaways
et
https://www.oncrawl.com/seo-for-news-website-3-takeaways/
n'est pas la même chose que
http://www.oncrawl.com/seo-for-news-website-3-takeaways/
CSV
Dans le format CSV, vous devez avoir une ligne d'en-tête qui contient tous les noms de champs dans votre CSV. Vous devez avoir un champ nommé URL.
Séparateurs : les deux , et ; sont pris en charge et détectés automatiquement.
Les lignes suivantes doivent contenir une valeur pour le champ URL, et une valeur pour chaque champ supplémentaire que vous souhaitez ajouter à cette URL
Exemple :
JSON
Dans le format JSON, vous devez fournir exactement 1 objet JSON par ligne. Les propriétés de l'objet sont le nom des champs, avec leurs valeurs correspondantes.
L'objet doit contenir au moins un champ nommé URL.
Toutes les valeurs doivent être primitives : String, Integer ou Float. Les valeurs complexes comme les listes ou les objets imbriqués et ne sont pas prises en charge.
Exemple :