Qu'est ce qu'un robot de moteur de recherche?

Les robots d’exploration des moteurs de recherche, appelés aussi Googlebot, Bingbot, bot, crawler, spider ou robot de moteur de recherche, analysent votre site web afin d’en indexer les contenus sur leurs moteurs de recherche.

Les robots inspectent les urls les unes après les autres afin d’en télécharger les contenus pour être analysés par des algorithme et déterminer ainsi leur indexation et classement sur les pages de résultats des moteurs de recherche, c’est à dire le positionnement d’un site web.

En savoir plus sur Googlebot

Googlebot fait en réalité référence à 2 types de robots : le premier simule une navigation depuis un ordinateur et le second une navigation sur mobile. En général un site est parcouru par les 2 robots. Les robots Google accèdent à votre site et le parcourent pour analyser et indexer son contenu. Depuis début 2019, si votre site offre une version orientée mobile, les demandes d’exploration seront effectuées par le robot pour mobile en priorité. Il devient ainsi le robot majoritaire sur votre site. Dans ce cas, le robot desktop n’explore que les urls déjà explorées et analysées par le robot mobile.

Les robots Google sont conçus et programmés pour analyser un maximum de pages de votre site à chaque visite sans pour autant surcharger votre bande passante. Ainsi, Google espace ses demandes d’accès de plusieurs secondes et peut exécuter de nombreux robots sur des machines situées à proximité des sites explorés afin d’optimiser les performances. Différentes méthodes sont aussi utilisées pour optimiser le téléchargement des fichiers des sites visités.

Quand il parcourt votre site, on dit que le robot de Google le crawle. Il entre sur votre site par un point d’entrée et analyse et aspire son contenu, préalable indispensable à l’indexation et au classement sur le moteur de recherche qui est effectué par les algorithmes de Google. Le robot est donc un programme qui fonctionne comme un navigateur qui ouvrirait toutes les pages et tous les liens qu’ils croisent pour en conserver le contenu.

Ce contenu est ensuite soumis aux algorithmes qui déterminent le classement sur les pages de résultats du moteur de recherche.

Que lisent et analysent Googlebot et ses confrères ?

Le robot qui entre sur votre site commence par lire le fichier robots.txt qui contient les directives qui lui sont destinées, il analyse ensuite les différents fichiers ressources comme le fichier sitemap, puis entame son exploration par la racine du site en téléchargeant non seulement son contenu html mais aussi les css, les ressources javascript et les images.

Les CSS sont à priori parcourues par les robots afin de pouvoir récupérer les fichiers d’images, les directives responsive design ou détecter d’éventuelles techniques de Black-Hat SEO.

Ainsi les robots qui accèdent au serveur téléchargent en premier lieu le fichier qui leur est destiné et analysent les règles qui y sont inscrites. Dans le cas où ils y sont bien autorisés, ils commencent à télécharger l’url racine du site : http://www.modomaine.fr, analysent son contenu et suivent les liens qu’elle peut contenir et ainsi de suite en suivant chaque nouveau lien. Bien qu’ils parcourent votre sitemap, les robots ne s’en tiennent pas que celui-ci mais peuvent explorer et télécharger d’autres urls sur votre site, notamment si votre site ou un autre site fait un lien vers ces urls.

En général les robots arrivent à analyser vos nouvelles pages dans les heures qui suivent leur publication mais cela peut parfois prendre un peu plus de temps. Dès lors qu’une nouvelle page est inscrite dans votre réseau de liens internes, les robots sont en mesure de la repérer et la parcourir rapidement. Mais passage du robot ne signifie pas indexation et mise en ligne sur les pages de résultats du moteur de recherche.

Comment détecter les crawlers ?

Il est possible de suivre les traces des robots qui passent sur votre site. Pour cela une simple analyse de logs sur votre site permet d’identifier la trace des passages des robots sur votre site. L’analyse de logs consiste à analyser les requêtes pour accéder à votre site sur votre serveur.

Analyser les logs constitue un levier supplémentaire pour comprendre le comportement des robots de Google sur votre site et orienter votre stratégie SEO.

Un logiciel de suivi de trafic, comme Google Analytics n’est pas en mesure de détecter les connexions de robots, pour pouvoir accéder à ces requêtes, vous devez regarder les logs http sur le serveur qui héberge le site : c’est-à-dire les requêtes qui sont exécutées sur le serveur du site. Il s’agit d’un simple fichier qu’il est possible de récupérer via l’interface de votre hébergeur.

Sur ces fichiers on trouve une ligne pour chaque url téléchargée sur le site web (css, image, html…) ainsi que le client web ayant effectué la requête dans le champ user-agent.

Vous pourrez lire quelque chose comme ça :

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Ces fichiers sont très volumineux car ils retracent toutes les visites et requêtes sur le site. Il faudra donc les trier pour extraire uniquement les requêtes des robots Google.

Pour les profils plus techniques, il est aussi possible de se lancer dans un peu de programmation pour identifier les requêtes provenant de Googlebot ou d’autres robots sur le serveur.

Peut-on communiquer avec les robots d’exploration ?

Il est possible de communiquer vos directives aux robots via le fichier robots.txt.

Ce petit fichier texte déposé à la racine du site permet d’indiquer aux robots certaines directives : certaines zones que l’on souhaite exclure du crawl par exemple. S’il est présent sur le site, c’est le premier fichier que les robots inspectent.

Le fichier robots offre donc la possibilité d’inscrire une suite de directives qui leur sont destinées :

→ A qui adresse-t-on les règles : type de user-agent ? Tous les robots, seulement celui de Google, seulement celui de Bing ?…

→ Les règles autorisent-elles ou interdisent-elles une action : allow / disallow ?

→ Quelles URLs sont concernées par les règles : expression régulière d’URL ?

Attention cependant, plus le fichier robots est complexe, plus le risque de commettre des erreurs et de susciter de mauvaises interprétation de la part des robots est important. Sachez aussi que peu de robots, en dehors de Googlebot sont en mesure d’interpréter les expressions régulières d’URL. Enfin, le fichier robots ne constitue pas une obligation mais une simple indication pour les robots.

Le fichier ne bloque pas l’accès d’un contenu et un robot qui n’est pas paramétré pour suivre ces directives peut tout à fait aspirer les contenus interdits s’ils le souhaitent. Seul, un balisage spécifique peut permettre de bloquer un accès au moment de la requête d’accès sur une page.

→ En savoir plus sur Googlebot

→ Que lisent et analysent Googlebot et ses confrères ?

→ Comment détecter les crawlers ?

→ Peut-on communiquer avec les robots d’exploration ?

Lire aussi :

→ Qu’est ce que le duplicate content ?

→ Qu’est-ce que le black hat SEO ?

♠ Définitions SEO