Vous possédez un site internet ? Alors il y a fort à parier que celui-ci a déjà été visité par Googlebot, sans que vous ne vous soyez aperçu de rien ! Googlebot, c’est le robot d’exploration de Google, qui lui permet de trouver et d’indexer les pages web. Comment fonctionne Googlebot exactement ? Que recherche-t-il et peut-on interagir avec lui ? C’est ce que nous allons voir à travers ce guide complet dédié au robot d’exploration de Google.

Définition de Googlebot

On désigne sous l’appellation “Googlebot” les “spiders” ou “crawlers” de Google, c’est à dire des robots qui vont parcourir le web, en passant de liens en liens, afin de découvrir et indexer les contenus rencontrés. L’index de Google, c’est en quelque sorte sa base de données, dans laquelle il va puiser lorsque vous lui posez une question.
C’est grâce à Googlebot que votre moteur de recherche préféré peut trouver des contenus qu’il va ensuite vous retourner sous forme de résultats de recherche.

robot représentant Googlebot

A noter par ailleurs que la firme de Mountain View utilise différents robots d’exploration, chacun avec un rôle précis. Par exemple, Adsbot va servir à explorer les pages de destination de campagnes publicitaire Google Ads. Googlebot lui même se décline en 2 versions : l’une pour ordinateur et l’autre pour mobile
Vous pouvez retrouver la liste complète des robots d’exploration Google (et leur jeton user-agent) sur cette page.

Comprendre le fonctionnement de Googlebot

On imagine souvent un petit robot lorsque l’on parle de Googlebot, mais concrètement il s’agit simplement d’un programme informatique. Lorsque ce programme est lancé, Googlebot parcours librement le web. Autrement dit, les ingénieurs de Google ne l’envoie pas explorer précisément tel ou tel site. Grâce aux liens que le robot à déjà découvert précédemment, ou qu’il vient de trouver, il va passer de page en page. Dès qu’il tombe sur un nouveau lien, il va le suivre pour explorer la page de destination. S’il s’agit d’une nouvelle page non découverte jusqu’à présent, et que son contenu est pertinent, alors Googlebot va ajouter ce nouveau document à l’index Google.
Inversement, si au cours de la navigation, Google tombe sur des liens qui pointent désormais vers des erreurs 404, alors il sortira de l’index les URL qui n’existent plus.

A noter que le nombre de passage et la quantité de page qui sont vues par le robot d’exploration sur votre site dépendent de ce que l’on appelle le “budget crawl”. C’est Googlebot lui même qui va déterminer pour chaque site quel est son budget crawl, c’est à dire la quantité de ressource qu’il peut se permettre d’utiliser pour explorer votre contenu. Plusieurs facteurs vont influer sur ce budget crawl (plus ou moins élevé), comme la fréquence de mise à jour du site ou sa notoriété.

Lorsque que Googlebot arrive sur votre site, il va d’abord aller consulter un petit fichier que l’on nomme fichier robots.txt, et qui doit se trouver systématiquement à la racine de votre site.
La crawler va alors regarder dans le robots.txt qu’elles sont les zones qu’il a le droit d’explorer librement sur votre site, ou bien au contraire quels sont les répertoires ou les pages que vous ne souhaitez pas qu’il consulte.

Une fois sur la page, Googlebot va récupérer l’ensemble des éléments qui la compose, c’est à dire le texte, mais aussi les images, les feuilles de style CSS… C’est ce qu’on appelle la phase d’indexation. Tout cela va permettre à Google d’analyser et de mieux comprendre de quoi parle votre document, de vérifier que le site est bien adapté à la navigation pour mobile… L’objectif pour lui est de pouvoir ensuite proposer des résultats de recherche qui soient les plus pertinents possible.

Vous souhaitez faire un audit de votre site web ? contactez nous !

Comment identifier les visites de Googlebot et en tirer profit pour le SEO ?

La Search Console vous donne quelques informations sur les passages des robots Google sur votre site. Dans le menu “statistiques sur l’exploration” vous allez notamment retrouver le nombre de pages explorées chaque jour par Googlebot. Vous pouvez également contrôler la vitesse du site en regardant le temps de téléchargement d’une page en moyenne par le robot de Google.

robot représentant Googlebot

Néanmoins, pour réaliser une analyse approfondie, les informations données dans la search console sont un peu limités. Pour aller plus loin, il va être nécessaire de se tourner vers l’analyse des logs du serveur. Les logs sont des fichiers journaux, dans lesquels sont consignés tous les événements survenus sur votre serveur. Quand un internaute parcourt votre site, il laisse des traces dans les logs. C’est aussi vrai pour les robots de Google. A chaque passage de GoogleBot Mobile et Desktop sur votre site, l’information va être enregistrée dans les fichiers logs.
L’enjeux va alors être d’arriver à isoler et extraire des logs les lignes concernant uniquement Googlebot, à l’aide du nom du “user-agent”, pour ensuite les analyser.

Grâce à un outil spécialisé comme Oncrawl ou Botify, il va alors être possible de procéder à ce qu’on appelle une analyse de logs, c’est à dire étudier le comportement de Googlebot sur le site pour en tirer des pistes d’optimisation. Par exemple, l’analyse de logs peut permettre d’identifier des visites du robot sur des pages orphelines. Ou bien encore d’identifier des pages qui ne sont jamais visités par Google.

Combinées avec un crawler SEO, l’analyse est encore plus intéressante ! On peut alors mettre en relation des problématiques techniques (balise title et meta descriptions dupliquées par exemple) avec le comportement du robots (éventuel désintérêt pour ce type de page…).

En résumé, Googlebot est le petit robot d’exploration de Google qui lui permet de découvrir et d’indexer continuellement de nouvelles URL. En travaillant sur l’architecture technique de votre site web, et en particulier son maillage interne, vous pouvez faciliter le travail d’exploration des robots. Le fichier robots.txt vous permet de lui donner des instructions grâce à des lignes de commandes. Enfin, l’analyse de logs SEO vous permet de voir l’activité et de mieux comprendre le comportement de Google sur vos pages.
Vous avez besoin d’aide pour étudier l’activité de Googlebot ? Vous rencontrez des problématiques de budget crawl ? N’hésitez pas à prendre contact avec notre agence SEO !