avril 24, 2018

Analyse de log SEO

Définition d’un fichier log

Les fichiers journaux d’un serveur web sont des fichiers qui contiennent l’ensemble des événements qui se sont produit au niveau d’un serveur. C’est un historique des requêtes qui ont été adressées au serveur.

Décryptage de ce fichier

Chaque requête est représentée par une ligne qui contient les informations suivantes :

›Adresse IP
›Date
›URL visitée
›User Agent
›Referer
›Temps de chargement

L’analyse de log, qu’est-ce que c’est ?

L’analyse de log consiste à analyser ces fichiers du serveur afin d’obtenir les données statistiques de fréquentation d’un site Internet. Elle permet de voir ce qui se passe sur votre site et ainsi comprendre le comportement de GoogleBot pour opérer des optimisations au niveau du budget crawl.

On peut effectuer cette analyse en mode «one shot» pour des besoins très précis. Mais le suivi permanent et régulier présente un intérêt indéniable pour le SEO.

Quelles sont les informations importantes à récolter ?

Le taux de crawl global et par niveau de profondeur. Plus les pages sont profondes, moins elles seront crawlées et plus elles auront de mal à générer des visites SEO.

Le taux de crawl par catégorie, pour détecter les catégories qui sont le moins crawlées.

– Le taux global des pages actives et par niveau de profondeur. Les pages actives sont des pages qui ont généré au moins une visite pendant une certaine période. En général, une période de 30 jours est suffisante pour tirer des analyses sur une page. Si une page n’est pas crawlée pendant toute cette période, c’est qu’il y a un problème. Cette information est importante car il sera possible par la suite de modifier les pages mortes et de leur apporter une valeur ajoutée ou bien tout simplement de les supprimer. Il convient en cas de suppression de bien suivre l’évolution de cette action, car cela peut avoir un effet négatif.

– Les codes retours des requêtes pour s’assurer que les codes 200 soient dominants. Les codes 404 sont à corriger. Les codes 302 se traduisent par un changement temporaire d’adresse et donc un blocage de la transmission de popularité. Il faut donc les rediriger en 301. Veillez à ce que le volume des 301 ne soit pas trop élevé par rapport aux codes 200.

Suivre le volume du crawl de GoogleBot par jour. Il est utile de monitorer les logs régulièrement, pour s’assurer que tout va bien et être à l’écoute des signaux. Une tendance à la hausse du volume du crawl de GoogleBot est une bonne nouvelle, par contre dans le cas où la tendance est à la baisse, il faut s’alarmer et être réactif pour identifier la source du problème.

– Le volume de pages connues par Google VS le volume de pages réel . L’objectif est de savoir si toutes les URLs sont vues par Google. Crawlez votre site avec un outil comme ScreamingFrog en respectant votre fichier robots.txt pour dresser la liste des URL réelles de votre site, puis comparez-les au nombre de pages crawlées par Google.

Les URL crawlées par Google, non présentes sur le site sont des URLS parasites qu’il faudra bloquer dans le robots.txt. Les URL présentes sur le site mais non-explorées par Google peuvent provenir de plusieurs éléments : la profondeur, le maillage interne, un problème technique, un PageRank faible… Il faut s’assurer que 100% des URLs trouvées par votre crawler soient également trouvées par Google.

Crawl vs Visites SEO

Une analyse de logs n’est significative que par une segmentation. Étudiez l’efficacité d’une catégorie en couplant le crawl de GoogleBot et les visites SEO. En général, les pages les plus crawlées sont celles qui génèrent le plus de visites. L’objectif est de réduire le volume de crawl sur les pages qui ne génèrent pas de visites SEO au profit de celles qui en génèrent.

Une catégorie qui génère beaucoup de crawl et très peu de visites doit être analysée en profondeur. On peut par exemple fermer à GoogleBot l’accès à certaines catégories ou augmenter leur profondeur dans la structure pour qu’il passe moins de temps dessus. L’objectif est d’éviter le gaspillage du crawl sur des pages non-intéressantes.

Découvrir les pages orphelines, c’est-à-dire les pages explorées par Google que les utilisateurs ne peuvent pas trouver à partir du site web. Elles ne sont pas liées dans la structure du site.

Suivre les performances coté serveur.

Pour résumer, les indicateurs importants à suivre sont :

Le volume de pages connues par Google VS le volume de pages réel.
Le volume du crawl de GoogleBot par jour.
Le taux de crawl (en général par profondeur et par catégorie).
Le taux de page active(en général par profondeur et par catégorie).
Les codes réponses http (en général par niveau et par profondeur).
L’analyse combinée du crawl et des visites SEO.

Solutions pour le traitement des données

1- En passant par des outils:

Il existe sur le marché plusieurs logiciels pour l’analyse des fichiers log comme :

– Botify (payant)
– Kelo.gs (payant)
– Splunk (payant)
– Watussi (open-source).

2- De façon manuelle :

Pour mesurer les visites SEO, on prend le champ ‘referrer’ qui contient les lignes Google ou Bing. Pour analyser le crawl des bots on s’intéresse à GoogleBot/Bingbot en tant que user-agent.

Avec Excel et les tableaux croisés dynamiques, vous pouvez analyser les données ainsi récupérées. Pour en savoir plus suivre ce tutoriel dans cette présentation

Toutefois, un programme comme Excel commence à planter lorsqu’il s’agit de grands fichiers de données, c’est pour cela qu’il faut passer en ligne de commande. Pour rapidement traiter de grands fichiers de données log, je vous invite à lire ces articles:

– les 5 commandes indispensables pour devenir autonome
– Quelques commandes concrètes 
– Utilisation de la commande GREP en seo

 

Conclusion

Les objectifs de l’analyse de log pour le SEO sont :
– Dans un premier de monitorer les pages d’un site (Codes http, découverte de nouvelles URL)
– Dans un second temps de dégager des pistes d’optimisation comme la restructuration de l’architecture d’un site et du maillage interne, la suppression ou la refonte des pages inutiles sans objectif SEO et la gestion du budget crawl de Google.

Pour aller plus loin, découvrez cet exemple concret par Nicemedia.