Analyse de logs seo

analyse de log

Sommaire de l’article

1.Définition d’un fichier log
2.Décryptage de ce fichier
3.Pourquoi s’intéresser à ces fichiers ?
4.Quelles sont les informations importantes à tirer ?
5.Solutions pour le traitement de données
6.Vidéos sur le sujet
7.Conclusion
8.Articles connexe sur la toile

Définition d’un fichier log

Les fichiers journaux d’un serveur web sont des fichiers qui contiennent l’ensemble des évènements qui se sont produit au niveau d’un serveur tels qu’Apache, Ngnix, IIS… C’est un historique des requêtes qui ont été adressées au serveur.

Décryptage de ce fichier

Chaque requête est représentée par une ligne qui contient les informations suivantes :

›Adresse IP
›Date
›URL visitée
›User Agent
›Referer
›Temps de chargement

C’est quoi l’analyse de log ?

L’analyse de log consiste à analyser les logs serveurs afin d’obtenir les données statistiques de fréquentation d’un site Internet. Elle permet de voir ce qui se passe sur votre site et comprendre le comportement de GoogleBot sur votre site, et par la suite faire des optimisations pour bien gérer le budget crawl.

Plusieurs personnes, font cette analyse en mode « one shot », pour des besoins très précis, sans suivi dans le temps. Or, le suivi permanent en quasi temps réel présente un intérêt indéniable pour le SEO.

Quelles sont les informations importantes à tirer ?

– Connaître le taux de crawl global et par niveau de profondeur. Plus les pages sont profondes moins elles seront crawlées et elles auront donc plus de mal à générer des visites SEO.

crawl-profondeur

Répartition des pages crawlées par profondeur

– Connaitre le taux de crawl par catégorie, pour voir les catégories qui sont le moins crawlées.

Le taux global des pages actives et aussi par niveau de profondeur. Les pages actives sont des pages qui ont généré au moins une visite pendant une certaine période. En général, je pense qu’une période de 30 jours est suffisante pour tirer des analyses sur des pages. Si une page n’est pas crawlée pendant toute cette période c’est qu’il y a un problème. Cette information est importante, car il sera possible par la suite de prendre des décisions. Vous avez le choix de soit modifier les pages dead et leur apporter une valeur ajoutée ou bien tout simplement les supprimer. Il convient en cas de suppression de bien suivre l’évolution de cette action, car des fois cela peut être avoir un effet négatif.

pages-actives

Le taux de page active par niveau de profondeur.

Le taux de page active par catégorie. Même chose que la prétendante analyse, sauf que c’est par catégorie. Le taux est calculé en divisant le nombre de page active de la catégorie par le nombre de page crawlé par google de cette catégorie.

Le taux de pages actives par catégorie.

Le taux de pages actives par catégorie.

Connaître les codes retours des requêtes pour s’assurer que les codes 200 soient dominants. Les codes 404 sont à corriger. Les codes 302 se traduit par cette page a changé d’adresse temporairement donc la transmission de la popularité est bloquée. Identifier les pages avec le code http 302, puis les changer en 301. Il faut bien veiller à ce que le volume des 301 ne soit pas élevé au regard des codes 200.

code-http

Répartition des codes reponses http

Suivre le volume du crawl de GoogleBot par jour. Il est utile de monitorer les logs régulièrement, pour s’assurer que tout va bien et être à l’écoute des signaux. Une tendance à la hausse du volume du crawl de GoogleBot est une bonne nouvelle, par contre au cas où la tendance est à la baisse, il faut s’alarmer et être réactif pour identifier la source du problème.

Volume de crawl Google Bot par jour

Volume de crawl Google Bot par jour

Le volume de pages connues par Google vs volume de page réel . L’objectif est de savoir si toutes mes URLs sont vues par Google. Crawlez votre site avec par exemple l’outil screaming frog en respectant votre fichier robots.txt pour dresser la liste des URLs réel de votre site, puis comparez-les au nombre de pages crawlées par Google. Les Urls crawlées par Google, non présentes sur le site sont des URLS parasites qu’il faudra bloquer dans le robots.txt. Les Urls présentes sur le site, non explorées par Google, il faut identifier la cause qui peut etre dû à la profondeur, au maillage interne de ses pages, à un problème technique, un PageRank faible… Il faut s’assurer que 100% des URLs trouvées par votre crawler soient également trouvées par Google.

structure-crawl

Pages existantes vs pages connues par Google

Crawl vs Visites SEO

Une analyse de logs n’est significative que par une segmentation. Étudiez l’efficacité d’une catégorie en couplant le crawl de GoogleBot et les visites SEO. En général, les pages les plus crawlées sont celles qui génèrent le plus de visites. L’objectif est de réduire le volume de crawl sur les pages qui ne génèrent pas de visites SEO au profit de celles qui en génèrent. Dans l’exemple ci-dessous, à gauche, on voit le crawl de GoogleBot, à droite le volume de visites SEO. On observe que plusieurs catégories (en vert,mauve,rose,vert foncé) sont très crawlées par Google sans que cela ne traduise par des visites organiques. Google perd du temps en les analysant.

Une catégorie qui génère beaucoup de crawl et très peu de visites doit être analysée en profondeur. On peut par exemple fermer à GoogleBot l’accès à certaines catégories ou augmenter leur profondeur dans la structure pour qu’il passe moins de temps dessus. L’objectif est d’éviter le gaspillage du crawl sur des pages non intéressantes.

visites-seo-vs-crawl

Crawl vs Visites SEO

– Découvrir les pages orphelines : C’est les pages explorées par Google que les utilisateurs ne peuvent pas trouver à partir du site web. Elles ne sont pas liés dans la structure du site.

– Suivre les performances coté serveur.

Pour résumé, les indicateurs à suivre sont :

Le volume de pages connues par Google vs volume de page réel.
Le volume du crawl de GoogleBot par jour.
Le taux de crawl (en général,par profondeur,par catégorie).
Le taux de page active(en général,par profondeur,par catégorie).
Les codes réponses http(en général,par niveau,par profondeur).
L’analyse combinée du crawl/visites SEO.

Solutions pour le traitement de données

1- En passant par des outils:

Il existe sur le marché plusieurs logiciels pour l’analyse des fichiers log comme :

– Botify (payant)
Kelo.gs (payant)
– Splunk (payant)
– watussi(open-source).

2- De façon manuelle :

Pour compter les visites SEO on prend le champ ‘referrer’ qui contient les lignes Google ou Bing, et pour voir le crawl des bots on s’intéresse à GoogleBot/bingbot en tant que user-agent.

2.1 Par l’outil Excel avec les tableaux croisées dynamique. Pour en savoir plus suivre ce tutoriel dans cette présentation

2.2 En ligne de commande :

Toutefois, un programme comme Excel commence à planter lorsqu’il s’agit de grands fichiers de données, c’est pour cela qu’il faut passer en ligne de commande, on peut rapidement traiter de grands fichiers de données log. Je vous invite à lire ces articles:

les 5 commandes indispensables pour devenir autonome
Quelques commandes concrètes
Utilisation de la commande GREP en seo

Vidéo sur le sujet

Débuter l’analyse de logs de Jean-Benoit :

ou François Goube (CEO @oncrawl) pour son exposé en webinaire semrush sur cette vidéo :

Conclusion

L’objectif de l’analyse de log pour le SEO ( Voir un exemple concret par nicemedia )
est :
– Dans un premier de monitorer les pages d’un site (Code Retour, découverte des nouvelles Urls)
– Dans un second temps de dégager des pistes d’optimisation comme la restructuration de l’architecture d’un site et du maillage interne, la suppression des pages inutiles sans objectif SEO ou apporter de la valeur ajoutée à ces pages considérées comme non pertinente, le but est de bien gérer le budget crawl.

Articles connexe sur la toile

Pour approfondir cette notion :

Guide assez complet en anglais
Présentation SEOCampus
– Suivre la formation de Jean-Benoît Moingt

Dans le cadre d’une démarche SEO je vous invite à faire appel à votre responsable seo senior
à ce sujet ou pour une campagne de netlinking ou pour trouver des solutions à des problèmes de contenu double.

2 thoughts on “Analyse de logs seo

  • Article très pertinent. Effectivement, l’exploitation des logs est nécessaire pour une agence SEO digne de ce nom, surtout lorsque l’on rentre dans du e-commerce sérieux.

  • Merci pour l’article bien complet. Des fois il suffit de supprimer des pages inutiles pour voir rapidement le crawl Google se lancer sur les pages stratégiques. ça reste un sujet très important pour les SEOs.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *