Crawler les sites : comment les robots des moteurs de recherche opèrent ?

De Jean-François Messier

Le dimanche 19 avril 2020

« Méfie-toi : les robots vont te crawler ! » Cela ferait presque peur. Que veut dire ce mot exactement ? Quelles pourraient en être les conséquences, positives ou négatives, pour mon site ?

Que veut dire crawler ?

Crawler est un mot anglais, cela veut dire collecter. C’est un robot appelé souvent spider >> qui est chargé de crawler tous les sites et documents qu’il peut trouver sur Internet, donc potentiellement sur votre site Web.

Comment fonctionne un crawler ?

Il peut être programmé pour parcourir le Web, avec des objectifs déterminés. Il est sans cesse en action, et visite les pages en fonction d’un chemin préétabli.

L'un des plus connus est celui utilisé par Google, pour son moteur de recherche nommé Googlebot. Avant lui, c’était AltaVista qui utilisait Scooter.

Actuellement, il y a tellement de pages Internet que les robots d’indexation doivent limiter leur temps sur chaque site afin d'en visiter le plus possible. De fait, un crawler visite donc, en général, seulement une partie du site à chaque passage.

Comment se faire crawler ?

Vous avez intérêt à ce que votre site soit crawlé par les robots, et cela le plus souvent possible. Pour autant, il est encore plus important que leur crawl finisse par un classement en première page des SERP (Search Engine Response Page : les pages de réponse des moteurs de recherche). Pour cela, vous devez bien faire la distinction entre :

Les robots d’indexation et de positionnement, envoyés par les moteurs de recherche : on les appelle spider, crawler ou bots.
Les robots des outils de diagnostic et d’aide au référencement naturel : ils sont souvent développés par les éditeurs de solution de SEO.
Les robots de surveillance, qui veillent par exemple sur des évolutions de prix pour renseigner des comparateurs.
Et enfin moins glorieux : les pratiques de SEO Black Hat.

Qu’est-ce qui empêche une page d’être visitée, collectée et donc indexée par un crawler ?

C’est forcément une décision de votre part. Pour une raison qui vous appartient, vous avez indiqué aux moteurs de recherche que vous ne vouliez pas que cette page soit visitée, ni indexée par les robots.

Pour les empêcher de crawler votre site, il faut indiquer la ou les URL des pages pour lesquelles vous souhaitez interdire l’accès. Pour cela, il vous faut publier ces directives dans le fichier robots.txt à la racine du site. Pour être très précis, sachez que :

le nom de ce fichier est imposé : ne mettez pas robot.txt (sans S) ou autre chose, il ne serait pas pris en compte,
il doit y avoir un fichier robots.txt pour chaque sous-domaine.

Est-ce possible de crawler des pages orphelines ?

Pour rappel, les pages orphelines sont :

des pages vers lesquelles aucun lien du site ne pointe. Aucun lien conduisant vers elles, elles sont donc introuvables des spiders puisque ceux-ci vont de liens en liens. Aucun robot ne risque de venir les indexer. À noter qu’elles peuvent bénéficier de liens externes pointant vers elles (backlinks), mais cela demandera toujours plus de temps que via un lien interne. Par ailleurs, certaines plateformes comme WordPress peuvent effectuer des Pings, c’est-à-dire alerter les moteurs de recherche de la parution d’un nouveau contenu.
ou bien des pages pointées par des liens non lus par les spiders (écrits en JavaScript par exemple, ou bien avec l’attribut NoFollow indiquant au robot de ne pas les livre).

Le passage des robots sur les pages peut être suivi par le web master en analysant les fichiers logs sur les serveurs, qui en indiquent l’historique de passage. Il existe aussi des outils payants en ligne :

Botify : https://www.botify.com/
OnCrawl : https://fr.oncrawl.com/
RobotStats : https://www.robotstats.com/
Watussi Box : https://box.watussi.fr/

PARTAGEZ !

L'inbound marketing dans parcours d’achat en social selling

L’ inbound-marketing s’intéresse à captiver les prospects le long de leur parcours d’achat. Le parcours d’achat d’un prospect passe par plusieur [...]

Les mots clés du prospect montrent qu'il est en mode achat

Dans tout parcours d’achat, les prospects passent par 3 stades de maturité >> qui déterminent leurs choix de mots-clés dans leurs requêtes [...]