Google peut élargir la liste des règles robots.txt non prises en charge dans sa documentation sur la base de l’analyse des données robots.txt du monde réel collectées via HTTP Archive.

Gary Illyes et Martin Splitt ont décrit le projet dans le dernier épisode de Search Off the Record. Le travail a commencé après qu’un membre de la communauté ait soumis une pull request vers le référentiel robots.txt de Google proposant que deux nouvelles balises soient ajoutées à la liste non prise en charge.

Illyes a expliqué pourquoi l’équipe a élargi la portée au-delà des deux balises du PR :

« Nous avons essayé de ne pas faire les choses de manière arbitraire, mais plutôt de collecter des données. »

Plutôt que d’ajouter uniquement les deux balises proposées, l’équipe a décidé d’examiner les 10 ou 15 règles non prises en charge les plus utilisées. Illyes a déclaré que l’objectif était « un point de départ décent, une base de référence décente » pour documenter les balises non prises en charge les plus courantes dans la nature.

Comment la recherche a fonctionné

L’équipe a utilisé Archives HTTP pour étudier les règles que les sites Web utilisent dans leurs fichiers robots.txt. HTTP Archive exécute des analyses mensuelles sur des millions d’URL à l’aide de WebPageTest et stocke les résultats dans Google BigQuery.

La première tentative s’est heurtée à un mur. L’équipe « a rapidement compris que personne ne demandait réellement de fichiers robots.txt » lors de l’exploration par défaut, ce qui signifie que les ensembles de données HTTP Archive n’incluent généralement pas de contenu robots.txt.

Après avoir consulté Barry Pollard et la communauté HTTP Archive, l’équipe a écrit un analyseur JavaScript personnalisé qui extrait les règles robots.txt ligne par ligne. Le métrique personnalisée a été fusionné avant l’exploration de février et les données résultantes sont désormais disponibles dans l’ensemble de données custom_metrics dans BigQuery.

Ce que montrent les données

L’analyseur a extrait chaque ligne correspondant à un modèle de valeur de champ-deux-points. Illyes a décrit la distribution résultante :

« Après l’autorisation, l’interdiction et l’agent utilisateur, la baisse est extrêmement drastique. »

Au-delà de ces trois champs, l’utilisation des règles tombe dans une longue traîne de directives moins courantes, ainsi que des données indésirables provenant de fichiers défectueux qui renvoient du HTML au lieu du texte brut.

Google actuellement prend en charge quatre champs dans robots.txt. Ces champs sont user-agent, autoriser, interdire et plan du site. La documentation indique que d’autres champs « ne sont pas pris en charge » sans énumérer les champs non pris en charge les plus courants dans la nature.

Google a précisé que les champs non pris en charge sont ignorés. Le projet actuel étend ce travail en identifiant des règles spécifiques que Google prévoit de documenter.

Les 10 à 15 règles les plus utilisées au-delà des quatre champs pris en charge devraient être ajoutées à la liste des règles non prises en charge par Google. Illyes n’a pas nommé de règles spécifiques qui seraient incluses.

La tolérance aux fautes de frappe peut s’étendre

Illyes a déclaré que l’analyse a également révélé des fautes d’orthographe courantes dans la règle d’interdiction :

« Je vais probablement augmenter les fautes de frappe que nous acceptons. »

Sa formulation implique que l’analyseur accepte déjà quelques fautes d’orthographe. Illyes ne s’est pas engagé sur un calendrier ni sur des fautes de frappe spécifiques au nom.

Pourquoi c’est important

La Search Console fait déjà apparaître des balises robots.txt non reconnues. Si Google documente davantage de directives non prises en charge, sa documentation publique pourrait refléter plus fidèlement les balises non reconnues que les gens voient déjà apparaître dans la Search Console.

Regarder vers l’avenir

La mise à jour prévue affecterait la documentation publique de Google et la manière dont les fautes de frappe interdites sont traitées. Toute personne gérant un fichier robots.txt avec des règles au-delà de l’agent utilisateur, de l’autorisation, de l’interdiction et du plan du site doit vérifier les directives qui n’ont jamais fonctionné pour Google.

Les données de l’archive HTTP sont consultable publiquement sur BigQuery pour tous ceux qui souhaitent examiner directement la distribution.


Image en vedette : capture d’écran de : YouTube.com/GoogleSearchCentral, avril 2026.