Google a maintenant ajouté de nouveaux détails qui expliquent les trois catégories dans lesquelles ses robots d’exploration Google appartiennent, ils incluent Googlebot, les robots d’exploration de cas particuliers et les extracteurs déclenchés par l’utilisateur.
De plus, Google répertorie désormais un fichier au format JSON contenant la liste des adresses IP utilisées par chacun de ces différents types de crawlers.
Types de robots d’exploration Google. Au sommet de cette page GooglebotGoogle a répertorié ces trois types de robots d’exploration :
- Googlebot – Le principal robot d’exploration des produits de recherche de Google. Google indique que ce crawler respecte toujours les règles du robots.txt.
- Crackers de cas particuliers – Crawlers qui exécutent des fonctions spécifiques (comme AdsBot), qui peuvent ou non respecter les règles du robots.txt.
- Récupérateurs déclenchés par l’utilisateur – Outils et fonctions de produit où l’utilisateur final déclenche une récupération. Par exemple, Google Site Verifier agit à la demande d’un utilisateur ou certains outils de la console de recherche Google enverront à Google la recherche de la page en fonction d’une action effectuée par l’utilisateur.
Adresses IP. Google a également répertorié les plages d’adresses IP et le masque DNS inversé pour chaque type :
Ce qui est nouveau. Voici la section de la page qui a été mise à jour; le reste de la page est pratiquement inchangé.
Pourquoi nous nous soucions. Je crois que Google a fait ce changement après avoir vu certaines des réactions au robot GoogleOther qu’ils ont annoncé l’autre jour. Cela explique maintenant comment agissent les crawlers de Google, quand ils respectent le robots.txt et comment mieux les identifier.
Maintenant, si vous ne voulez pas bloquer le robot principal de Google, Googlebot, mais que vous décidez de bloquer les autres, vous pouvez mieux identifier ces robots avec plus de précision.