John Mueller de Google a récemment répondu à une question sur les erreurs fantômes de noindex signalées dans Google Search Console. Mueller a affirmé que ces rapports pourraient être réels.
Noindex dans la console de recherche Google
Une directive robots noindex est l'une des rares commandes auxquelles Google doit obéir, l'un des rares moyens par lesquels un propriétaire de site peut exercer un contrôle sur Googlebot, l'indexeur de Google.
Et pourtant, il n'est pas totalement rare que la console de recherche signale son incapacité à indexer une page en raison d'une directive noindex qui ne contient apparemment pas de directive noindex, du moins aucune qui soit visible dans le code HTML.
Lorsque Google Search Console (GSC) signale « URL soumise marquée « noindex » », elle signale une situation apparemment contradictoire :
- Le site a demandé à Google d'indexer la page via une entrée dans un plan du site.
- La page a envoyé à Google un signal pour ne pas l'indexer (via une directive noindex).
C'est un message déroutant de la Search Console selon lequel une page empêche Google de l'indexer alors que ce n'est pas quelque chose que l'éditeur ou le référencement peut observer au niveau du code.
La personne qui pose la question posté sur Bluesky :
« Depuis 4 mois, le site Web rencontre une erreur noindex (dans la balise méta 'robots') qui refuse de disparaître de la Search Console. Il n'y a aucun noindex nulle part sur le site Web ni robots.txt. Nous avons déjà examiné cela… Qu'est-ce qui pourrait causer cette erreur ? »
Noindex s'affiche uniquement pour Google
John Mueller de Google a répondu à la question, expliquant qu'il y avait toujours un noindex indiquant à Google sur les pages qu'il a examinées où ce genre de chose se produisait.
Mueller a répondu :
« Les cas que j'ai vus dans le passé étaient ceux où il y avait en fait un noindex, parfois uniquement affiché à Google (ce qui peut encore être très difficile à déboguer). Cela dit, n'hésitez pas à m'envoyer quelques exemples d'URL par SMS. «
Bien que Mueller n'ait pas précisé ce qui pouvait se passer, il existe des moyens de résoudre ce problème pour découvrir ce qui se passe.
Comment dépanner les erreurs Phantom Noindex
Il est possible qu'il y ait un code quelque part qui provoque l'affichage d'un noindex uniquement pour Google. Par exemple, il peut arriver qu'une page ait à un moment donné un noindex et qu'un cache côté serveur (comme un plugin de mise en cache) ou un CDN (comme Cloudflare) ait mis en cache les en-têtes HTTP à partir de ce moment-là, ce qui à son tour entraînerait l'affichage de l'ancien en-tête noindex à Googlebot (car il visite fréquemment le site) tout en fournissant une nouvelle version au propriétaire du site.
Vérifier l'en-tête HTTP est facile, il existe de nombreux vérificateurs d'en-tête HTTP comme celui-ci sur CléCDN ou celui-ci à SecurityHeaders.com.
Un code de réponse d'en-tête de serveur 520 est celui envoyé par Cloudflare lorsqu'il bloque un agent utilisateur.
Capture d'écran : 520 code de réponse Cloudflare

Vous trouverez ci-dessous une capture d'écran d'un code de réponse de serveur 200 généré par cloudflare :
Capture d'écran : 200 code de réponse du serveur

J'ai vérifié la même URL en utilisant deux vérificateurs d'en-tête différents, un vérificateur d'en-tête renvoyant un code de réponse du serveur 520 (bloqué) et l'autre vérificateur d'en-tête envoyant un code de réponse 200 (OK). Cela montre à quel point Cloudflare peut réagir différemment à quelque chose comme un vérificateur d'en-tête. Idéalement, essayez de vérifier avec plusieurs vérificateurs d'en-tête pour voir s'il existe une réponse 520 cohérente de Cloudflare.
Dans le cas où une page Web affiche exclusivement à Google quelque chose qui n'est pas visible par quelqu'un qui consulte le code, vous devez demander à Google de consulter la page pour vous à l'aide d'un véritable robot d'exploration de Google et d'une adresse IP de Google. Pour ce faire, déposez l'URL dans le test de résultats enrichis de Google. Google enverra un robot d'exploration à partir d'une adresse IP Google et s'il y a quelque chose sur le serveur (ou un CDN) qui affiche un noindex, cela l'attrapera. En plus des données structurées, le test Rich Results fournira également la réponse HTTP et un instantané de la page Web montrant exactement ce que le serveur montre à Google.
Lorsque vous exécutez une URL via le test Google Rich Results, la requête :
- Provient des centres de données de Google : le bot utilise une véritable adresse IP de Google.
- Réussit les vérifications DNS inversées : si le serveur, le plug-in de sécurité ou le CDN vérifie l'adresse IP, elle sera renvoyée à googlebot.com ou google.com.
Si la page est bloquée par noindex, l'outil ne pourra fournir aucun résultat de données structurées. Il doit fournir un statut indiquant « Page non éligible » ou « Échec de l'exploration ». Si vous voyez cela, cliquez sur un lien pour « Afficher les détails » ou développez la section d'erreur. Il devrait afficher quelque chose comme « Balise méta Robots : noindex » ou « noindex » détecté dans la balise méta « robots » ».
Cette approche n'envoie pas l'agent utilisateur GoogleBot, elle utilise la chaîne de l'agent utilisateur Google-InspectionTool/1.0. Cela signifie que si le blocage du serveur concerne l'adresse IP, cette méthode le détectera.
Un autre angle à vérifier concerne la situation dans laquelle une balise noindex malveillante est spécifiquement écrite pour bloquer GoogleBot, vous pouvez toujours usurper (imiter) la chaîne de l'agent utilisateur de GoogleBot avec la propre chaîne de Google. Extension du commutateur d'agent utilisateur pour Chrome ou configurez une application comme Screaming Frog configurée pour s'identifier avec l'agent utilisateur GoogleBot et qui devrait l'attraper.
Capture d'écran : Sélecteur d'agent utilisateur Chrome

Erreurs fantômes Noindex dans la console de recherche
Ce type d'erreurs peut sembler difficile à diagnostiquer, mais avant de lever les mains en l'air, prenez le temps de voir si l'une des étapes décrites ici vous aidera à identifier la raison cachée responsable de ce problème.
Image en vedette par Shutterstock/AYO Production