Cet article vous guidera dans les étapes de mise en place de la surveillance des logs avec OnCrawl :

  1. Assurez-vous que vous avez accès aux bons fichiers de logs

  2. Vérifiez le format de vos logs

  3. Préparer les réponses aux questions d'analyse

  4. Activer la surveillance des logs dans votre projet

  5. Vérifier l'accès au lieu de stockage des fichiers de logs

  6. Mettre en place une méthode de téléchargement

  7. Préparez votre analyse syntaxique

  8. Surveiller le traitement des logs

  9. Commencez votre analyse de logs

1. Assurez-vous que vous avez accès aux bons fichiers

Les logs qui enregistrent les interactions des robots et des utilisateurs

En fonction de la configuration de votre site web, les fichiers de logs peuvent être conservés et stockés à différents endroits et par différents outils, notamment CDN, équilibreurs de charge, caches, serveurs...

Pour le suivi SEO des logs, vous aurez besoin des fichiers logs créés au moment où un utilisateur interagit pour la première fois avec votre site. Cela peut signifier que vous avez besoin des fichiers de logs de votre CDN ou de votre équilibreur de charge, par exemple, plutôt que de votre serveur.

Les logs qui couvrent les parties de votre site que vous souhaitez surveiller

Selon la configuration de votre site web, il se peut que vous ayez besoin de plusieurs fichiers pour couvrir l'ensemble de votre site.

Assurez-vous d'avoir les fichiers pour les parties de votre site que vous souhaitez surveiller, comme les pages mobiles ou les sous-domaines.

2. Vérifiez le format de vos logs

Vous devrez vous assurer qu'OnCrawl peut lire vos fichiers de logs. Pour ce faire, vous aurez besoin d'un fichier de logs et d'un éditeur de texte de base, tel que Notepad (Windows) ou Notes (Mac).

Extension du fichier

Vérifiez d'abord l'extension du fichier.

  • Préférez les fichiers .txt ou .json

  • Évitez les fichiers .csv et .tsv

Contenu du fichier de logs

Ouvrez le fichier dans votre éditeur de texte. Voici à quoi ressemble votre fichier de logs. Le travail d'OnCrawl est de donner un sens à tout cela. Le vôtre est de vous assurer qu'il contient toutes les informations qu'OnCrawl doit extraire.

OnCrawl recherchera des visites organiques et des visites sur Googlebot. Voici à quoi cela pourrait ressembler :

Exemple d'une ligne de log pour un hit de Googlebot

Vous pouvez voir "Googlebot" dans l'agent utilisateur :

www.oncrawl.com:80 66.249.73.145 - - [07/Feb/2018:17:06:04 +0000] "GET /blog/ HTTP/1.1" 200 14486 "-" "Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)" "-" 

Exemple d'une ligne de log pour une visite SEO

Vous pouvez voir le "https://www.google.es/" comme referer :

www.oncrawl.com:80 37.14.184.94 - - [07/Feb/2018:17:06:04 +0000] "GET /blog/ HTTP/1.1" 200 37073 "https://www.google.es/" "Mozilla/5.0 (Linux ; Android 7.0 ; SM-G920F Build/NRD90M) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/64.0.3282.137 Mobile Safari/537.36" "-"

Vous devriez être en mesure de confirmer les points suivants en consultant votre fichier de logs :

  • La plupart des lignes sont à peu près identiques. (Elles ont toutes le même format)

  • Vous pouvez séparer chaque information dans la ligne, même si vous ne savez pas ce que tout cela signifie. Par exemple, dans l'exemple de visite organique ci-dessus, vous pouvez dire que le nombre 37073 (c'est le nombre d'octets transférés) est une information et "GET /blog/ HTTP/1.1" (c'est la demande elle-même, et contient le slug de la page demandée : /blog/) en est une autre.

Vos lignes de logs peuvent être différentes de celles des exemples ci-dessus si votre site web utilise un autre type de serveur. OnCrawl analyse régulièrement les logs des serveurs IIS, Ngix et Apache, et peut prendre en charge tout type de serveur qui fournira un fichier de logs au format JSON.

Pour savoir comment configurer le bon format de logs lorsque vous utilisez Apache ou Ngnix, cliquez ici

Contenu de la ligne de log

Les informations suivantes sont obligatoires :

  • Chemin du requête (/blog/) ou URL complète (https://www.oncrawl.com/blog/). Cela indique la page ou la ressource que le robot ou l'utilisateur voulait consulter. Nous l'utilisons pour calculer le nombre de visites par page, pour filtrer ou compter les visites par groupe de pages, pour effectuer une analyse croisée des données pour une URL donnée, et bien plus encore.

  • Date et heure. Ceci indique quand la page ou la ressource a été demandée. Nous l'utilisons pour établir la fréquence d'exploration, pour créer des graphiques temporels, pour vous permettre de filtrer par date et pour cibler les données sur la bonne période pour une analyse.

  • User-Agent. Le User-Agent contient les informations essentielles sur la personne qui fait la demande : le type d'appareil, et - plus important - le nom du bot si le visiteur est un bot.

  • Status code. Le serveur renvoie un code indiquant le statut pour chaque élément demandé. Nous l'utilisons pour établir des incohérences dans les codes de statut signalés aux utilisateurs, à OnCrawl et à Googlebot.

Les informations suivantes sont obligatoires si votre site utilise le HTTPS :

  • Soit le schéma (http ou https), s'il n'est pas déjà présent dans l'URL complète

  • Soit le port de la demande (80 sur HTTP / 443 sur HTTPS)

    Ces informations permettent de savoir si le visiteur a demandé la version HTTP ou la version HTTPS d'une page.

Les informations suivantes sont obligatoires si vos fichiers de logs contiennent des informations pour plusieurs sous-domaines :

  • vhost, s'il n'est pas déjà présent dans l'URL complète

    Cette information est nécessaire pour distinguer les URL d'un sous-domaine de ceux d'un autre.

Les informations suivantes sont facultatives mais fortement recommandées :

  • Referer. Cette information transmise par le navigateur indique la page d'où vient le visiteur. Elle est cependant obligatoire si vous avez l'intention d'utiliser l'analyse de logs pour identifier et examiner le trafic SEO (utilisateurs provenant d'une page de recherche Google).

  • IP du client. Nous utilisons cette information uniquement pour confirmer par une recherche inversée que les visiteurs ayant un user-agent Googlebot sont bien des Googlebots. Cela permet à OnCrawl de filtrer les robots spammeurs qui se font passer pour Google. Une fois la vérification effectuée, nous ne conservons ni enregistrons ces informations nulle part. Nous n'avons pas besoin et nous n'utilisons pas d'adresses IP pour les lignes qui n'ont pas d'user-agent Google.

  • Taille de la réponse. Elle indique la quantité de données que le serveur a transférées pour la page ou la ressource demandée. Elle est extrêmement utile pour identifier la taille de la page et pour rechercher les erreurs du serveur, comme les pages qui ont un état de 200 mais 0 octet de contenu.

  • Temps de réponse. C'est le temps qu'il a fallu au serveur pour fournir la page ou la ressource demandée. Cela permet de mesurer avec précision la vitesse des pages de votre site.

Vous pouvez télécharger cette liste comme une liste de contrôle que vous utilisez vous-même ou que vous fournissez à votre équipe de développement si nécessaire.

Besoins supplémentaires

Votre entreprise ou votre client peut ne pas vouloir fournir des fichiers de logs complets à OnCrawl. Si vos politiques internes l'exigent, vous pouvez filtrer vos fichiers de logs pour supprimer les lignes qui ne sont pas des résultats de robots ou des visites SEO (en provenance d'un moteur de recherche).

Pour en savoir plus sur la manière de filtrer les lignes de logs, cliquez ici.

3. Préparez vos questions d'analyse

Afin de préparer une analyse automatique de vos fichiers de logs, nous vous poserons de nombreuses questions lors de la mise en place. Assurez-vous que vous savez comment y répondre. Vous aurez peut-être besoin de demander l'aide de votre service informatique.

Téléchargez la liste de questions de contrôle et assurez-vous qu'elle est dûment remplie.

4. Activez la surveillance des logs dans votre projet

À ce stade, vous êtes prêt à activer la surveillance des logs dans l'application si vous ne l'avez pas encore fait. L'option de surveillance des logs doit être incluse dans votre abonnement à OnCrawl.

À partir de la page de votre projet, cliquez sur "ADD DATA SOURCES".

Dans le premier onglet de la page des sources de données, cliquez sur "ACTIVATE LOGS MONITORING".

Utilisez la liste de contrôle des questions de l'étape précédente ("3. Préparez vos questions d'analyse") pour répondre à toutes les questions des étapes 1 ("Configure your needs") et 2 ("Logs completeness").

Vous êtes maintenant prêt à télécharger vos premiers fichiers de logs sur OnCrawl.

Vous pouvez laisser la page dans l'application et revenir quand vous êtes prêt.

5. Vérifier l'accès à l'emplacement de stockage des fichiers de logs

Avant d'aller plus loin, assurez-vous que vous savez où sont stockés vos fichiers de logs et que vous pouvez y accéder.

Vous aurez peut-être besoin de négocier cela avec votre service informatique, ou leur demander de mettre en place une solution qui place une copie des fichiers de logs dans un endroit auquel vous avez accès tous les jours.

N'oubliez pas que l'emplacement de vos fichiers de logs dépend de la configuration de votre site et de votre serveur. Les logs dont vous avez besoin peuvent être stockés à plusieurs endroits.

Si vos logs sont stockés sur un serveur, l'emplacement le plus courant est /var/log .

Si votre serveur est utilisé pour plusieurs sites web, assurez-vous que vous êtes en mesure de dire quels sont les logs pour quel site. Si le serveur enregistre les requêtes pour tous les sites dans un même fichier, vous devrez :

  • soit vous assurer que le domaine ou l'URL complète apparaît dans chaque ligne de logs

  • soit filtrer le fichier afin de ne fournir que les lignes de logs de votre site à OnCrawl

6. Mettre en place une méthode de téléchargement

Ensuite, configurez votre méthode de téléchargement.

Deux méthodes sont disponibles :

  • Téléchargement automatique. Il s'agit d'une méthode "pull" : OnCrawl se connectera à votre emplacement de stockage de fichiers de logs et collectera vos fichiers de logs automatiquement. Cette méthode fonctionne grâce à des connecteurs sécurisés développés par OnCrawl et doit être utilisée si vous utilisez un emplacement ou une plateforme de stockage tiers, comme Amazon S3 pour vos fichiers de logs.

  • Téléchargement manuel. Il s'agit d'une méthode "push" : Vous envoyez vos fichiers de logs à OnCrawl. Ce processus peut également être automatisé en écrivant un script ou un programme qui exécute périodiquement les étapes manuelles.

Téléchargement automatique

Grâce à cette méthode, vous n'avez pas à fournir vos fichiers. OnCrawl viendra les chercher en utilisant l'un de nos connecteurs disponibles.

Veuillez nous contacter pour obtenir et mettre en place un connecteur. Nous prenons en charge les connecteurs pour :

  • Amazon (AWS, AS3)

  • Google Cloud Platform

  • Splunk

  • OVH

  • Akamai

Téléchargement manuel

Pour télécharger manuellement des fichiers sur OnCrawl, vous devez vous connecter à votre espace FTP privé et protégé et placer vos fichiers dans le dossier de votre projet.

Tout d'abord, vous devrez compresser vos fichiers de logs, ou les "ziper". Vous pouvez utiliser n'importe quel programme qui produit l'un des formats courants suivants :

  • .zip

  • .gz

  • .7z

Assurez-vous que le pare-feu de votre réseau est ouvert pour les connexions FTPS.

Veuillez noter que OnCrawl n'utilise pas le SFTP.

Utilisez une solution client FTP telle que FileZilla pour vous connecter. Vous aurez peut-être besoin des informations suivantes :

  • Serveur : ftp://ftp.oncrawl.com ou par IP : 23.251.134.79

  • Nom d'utilisateur : Nom d'utilisateur OnCrawl

  • Mot de passe : Mot de passe OnCrawl

  • Ports : 21 pour la connexion et 10090 à 10990 pour les communications en mode passif

Vérifiez que votre connection est sécurisée (FTPS). Si votre client FTP n'utilise pas TLS par défaut, il faudrait activer l'option "FTP explicit par TLS".

OnCrawl n'utilise pas de clé d'authentification pour la connexion FTPS.

Une fois connecté, vous verrez les dossiers de chaque projet dans votre compte :

  • Répertoire : Le nom de votre projet

Ouvrez le dossier de votre projet et déposez-y le(s) fichier(s) zippé(s).

Vous avez (presque) terminé !

Apprenez comment sécuriser votre connexion FTP ici (cela permet de s'assurer que vous utilisez FTPS)

Découvrez comment automatiser le téléchargement des fichiers de logs quotidiens ici

7. Configurez votre analyse syntaxique

Vos fichiers de logs sont désormais disponibles.

Retournez à la page de configuration dans la section "Add Data Sources" de l'application OnCrawl. (Si vous avez fermé cette page, vous pouvez y retourner en cliquant sur "ADD DATA SOURCES" à partir de la page du projet. Assurez-vous que vous êtes bien sur l'onglet "Log Files".)

Vous devriez voir un message indiquant que OnCrawl a trouvé les fichiers que vous avez téléchargés. Le nombre de fichiers trouvés par OnCrawl doit être le même que le nombre de fichiers que vous avez téléchargés.

Cliquez sur "I'VE UPLOADED ALL FILES".

Cela vous amènera à l'étape 4 ("Check logs format"). Cet écran indique comment OnCrawl a décomposé chaque ligne de votre fichier en éléments d'information distincts, et quelles informations sur vos fichiers de logs il a déterminées.

Il est normal de voir "Parse failed" dans la première ligne ("Result") au début. Vous ne pourrez pas continuer jusqu'à ce qu'elle indique "Everything seems OK".

Pour changer un "Parse failed" en "Everything seems OK", vous devrez corriger les erreurs éventuelles dans les sections "Issues", "HTTP / HTTPS analysis" et "Subdomain analysis". (Vous pouvez continuer avec un schéma d'analyse même s'il y a encore des avertissements / warnings, tant que l'interprétation par OnCrawl vous semble correcte).

Issues ("Problèmes")

La section "Issues" énumère les problèmes de haut niveau rencontrés.

Vous pouvez avoir des avertissements même si le résultat est "Everything seems OK" :

  • Avertissement : No SEO visits detected. OnCrawl a pu décomposer les lignes en leurs différents éléments, mais nous n'avons néanmoins trouvé aucune ligne avec un referer Google qui puisse être classée comme une visite SEO. Il est possible, mais peu probable, qu'aucune visite SEO ne soit enregistrée dans le ou les fichiers que vous avez envoyés à OnCrawl. Assurez-vous que c'est le cas avant de poursuivre.

  • Avertissement : No bot hits detected. OnCrawl a pu décomposer les lignes en leurs différents éléments, mais nous n'avons néanmoins trouvé aucune ligne avec un user-agent Googlebot et une adresse IP Google qui puisse être classée comme une visite de Googlebot. Il est possible, mais très peu probable, qu'aucun hit de googlebot ne soit enregistré dans le ou les fichiers que vous avez envoyés à OnCrawl. Assurez-vous que c'est le cas avant de poursuivre. (Si vous utilisez un serveur cache, vous devrez peut-être désactiver la validation de l'IP pour les Googlebots).

  • Avertissement : High parse error rate. OnCrawl pense avoir trouvé la bonne façon de décomposer les lignes en leurs différents éléments, mais nous avons rencontré un grand nombre de lignes qui ne correspondent pas à ce modèle. C'est souvent le signe que toutes les lignes de votre fichier de logs n'ont pas le même format ou qu'il y a un problème avec la façon dont nous décomposons les lignes. Si les lignes que nous avons répertoriées comme des erreurs se réfèrent à des occurrences de Googlebot ou à des visites SEO, votre analyse de logs sera incomplète, et donc incorrecte. Vous devez essayer de comprendre pourquoi il y a tant d'erreurs avant de poursuivre.

Analyse HTTPS / HTTPS

La section "Analyse HTTPS / HTTPS" vous indique comment OnCrawl traitera la différence entre HTTP et HTTPS dans vos fichiers de logs. Par exemple, si vous voyez : "Error : HTTP scheme is required but could not be extracted", cela signifie :

  • HTTP scheme is required ("Le schéma HTTP est requis") : vous avez dit à OnCrawl que votre site web utilise le HTTPS. L'analyseur de logs doit s'assurer que les requêtes entrantes sont pour la version HTTPS.

  • Could not be extracted ("N'a pas pu être extrait") : vos fichiers de logs ne contiennent pas (ou l'analyseur automatique n'a pas pu trouver) le schéma ou le port qui fait la différence entre HTTP et HTTPS.

  • Par conséquent, vous devez indiquer à l'analyseur quelle partie d'une ligne de log contient cette information avant de pouvoir poursuivre.

Subdomain analysis (Analyse des sous-domaines)

La section "Subdomain analysis" ("Analyse des sous-domaines") vous indique comment OnCrawl traitera les différents sous-domaines possibles dans vos fichiers de logs. Par exemple, si vous voyez : "Warning : HTTP host could not be extracted. Full URLs rebuilt from default URL: https://www.yoursite.com", cela signifie :

  • HTTP host could not be extracted ("L'hôte HTTP n'a pas pu être extrait") : OnCrawl ne peut pas trouver les informations sur l'hôte dans votre ligne de log. L'hôte est le domaine et le sous-domaine (tout ce qui se trouve entre "https://" et la limace, le chemin ou le nom de fichier) : www.yoursite.com ou shop.yoursite.com

  • Full URLs rebuilt from default URL ("URL complètes reconstruites à partir de l'URL par défaut") : par conséquent, OnCrawl traitera toutes les lignes comme si elles se trouvaient dans le même sous-domaine. Il créera des URL complètes en utilisant l'URL par défaut indiquée ici.

  • Comme il s'agit d'un avertissement, vous n'avez rien à faire si vous êtes d'accord avec les conclusions de OnCrawl. Toutefois, si vos fichiers de logs contiennent des demandes pour plusieurs sous-domaines, vous devrez corriger ce problème avant de continuer.

Informations complémentaires

Les sections "Parse sample" ("Exemple d'analyse"), "OK lines" ("Lignes acceptables"), "Filtered lines" ("Lignes filtrées") et "Error lines" ("Lignes en erreur") ont pour but de vous donner une idée de ce qu'OnCrawl a pu trouver dans vos fichiers de logs. Si vous connaissez bien votre site, ces informations peuvent vous aider à confirmer que les fichiers ont été correctement analysés.

Configure log parser (Configurer l'analyseur de logs)

Pour corriger les erreurs et les avertissements, descendez dans la section "Configure logs parser" et passez à "Manual".

Pour chaque élément trouvé par OnCrawl, utilisez le menu déroulant en haut pour choisir le type d'information que l'élément représente. Vous n'aurez probablement pas besoin d'utiliser tous les éléments du menu déroulant.

Vous pouvez également cliquer sur l'onglet "Advanced". C'est là que vous pouvez désactiver la vérification de l'IP pour les Googlebots en décochant la case "Check Google IP", ou définir un fuseau horaire si votre serveur n'en fournit pas.

Cliquez sur "CHECK LOGS FORMAT" lorsque vous avez terminé.

Si vous voyez encore des "Parse error" ou des avertissements, cliquez sur "CONFIGURATION IS NOT OK" en bas de la page. Cela vous permettra de modifier à nouveau le schéma d'analyse.

Répétez ce cycle jusqu'à ce que vous ayez les résultats "Everything seems OK" et que vous n'ayez plus d'avertissements.

Si tout est OK et que vous n'avez plus d'avertissements, cliquez sur "CONFIGURATION IS OK".

Toujours coincée ?

En cas de difficultés, vous pouvez nous contacter par chat. Dites-nous que vous avez affaire à une "parse error" (erreur d'analyse de fichiers de log).

8. Surveillez le traitement des logs

L'outil Log Manager d'OnCrawl vous permet de suivre le traitement de vos fichiers de log.

Vous trouverez le bouton "LOG MANAGER TOOL" sur la page du projet, à côté du bouton "ADD DATA SOURCES".

Quel type d'information peut être surveillé ?

"File Processing" montre des informations sur les étapes du traitement de vos fichiers. Il indique l'heure de réception du dernier fichier, l'événement utile (soit un hit d'un Googlebot, soit un hit en provenance du moteur de recherche), ainsi que le statut du traitement.

Certaines informations brutes sont utilisées pour le suivi en direct ("Live events"), mais d'autres sont agrégées par jour ("Aggregated data") pour permettre l'analyse croisée avec d'autres informations sur la plateforme.

Les informations sur les deux fils de traitement sont disponibles.

Dans la deuxième section de cette page, l'outil Log Manager affiche des graphiques concernant les tendances de la qualité de vos fichiers logs et de la régularité avec laquelle ils sont téléchargés et traités.

Enfin, l'outil affiche un tableau de données explorable avec des informations telles que le nom du fichier, la date de dépôt, la taille du fichier, les lignes indiquant des visites SEO et des Googlebots, les lignes erronées et les lignes filtrées.

Vous pouvez cliquer sur un nom de fichier pour voir des exemples de données de ce fichier. Cela vous donne une meilleure idée de la façon dont OnCrawl interprète vos données de logs.

Comment interpréter le tableau Processed Files (Fichiers traités)

  • Le fait d'avoir de gros chiffres dans les colonnes "Files size", "SEO visits" et "Bot hits" ne pose normalement pas de problème

  • Le fait d'avoir quelques lignes de logs dans la colonne "Errors" ne devrait pas poser de problème

  • Au contraire, le fait d'avoir beaucoup de lignes de logs dans la colonne "Errors" ou très peu dans les colonnes "Bot hits" et "SEO visits" indique le plus souvent une erreur de découpage (parsing). Dans ce cas, contactez-nous en utilisant la boîte de discussion OnCrawl. Nous serons heureux de vous aider.

9. Commencez l'analyse de vos logs

La surveillance des logs est maintenant correctement configurée pour votre projet.

Cliquez sur "SHOW LOGS MONITORING" de la page de votre projet, et commencez l'analyse des logs.

Cela vous amènera à l'onglet "Log Analysis" dans la barre latérale d'analyse. Vous pouvez également accéder à ces rapports à partir de n'importe quelle analyse de votre projet.

Vous pouvez également modifier vos profils d'exploration afin d'effectuer une analyse croisée des données d'exploration et des données de logs lors de futures analyses :

  • Dans les paramètres d'exploration, faites défiler vers le bas jusqu'à "Analyses".

  • Cliquez sur "SEO impact report" pour développer la section

  • Assurez-vous que vous regardez l'onglet "Logs".

  • Cochez la case "Enable logs cross analysis"".

  • N'oubliez pas de sauvegarder vos modifications

Avez-vous trouvé votre réponse?