John Mueller de Google a répondu à une question sur LLMS.TXT liée au contenu en double, déclarant qu'il n'était pas logique qu'il soit considéré comme du contenu en double, mais il a également déclaré qu'il pourrait être judicieux de prendre des mesures pour empêcher l'indexation.
Llms.txt
LLMS.TXT est une proposition de création d'une nouvelle norme de format de contenu que les modèles de grande langue peuvent utiliser pour récupérer le contenu principal d'une page Web sans avoir à gérer d'autres données non contenues, telles que la publicité, la navigation et tout ce qui n'est pas le contenu principal. Il offre aux éditeurs Web la possibilité de fournir une version organisée et formée par Markdown du contenu le plus important. Le fichier llms.txt se trouve au niveau racine d'un site Web (exemple.com/llms.txt).
Contrairement à certaines affirmations faites sur llms.txt, il n'est en aucun cas similaire dans le but de Robots.txt. Le but de Robots.txt est de contrôler le comportement des robots, tandis que le but de LLMS.txt est de fournir du contenu à de grands modèles de langage.
Google Affichera-t-il LLMS.txt comme du contenu en double?
Quelqu'un sur Bluesky a demandé si LLMS.TXT pouvait être considéré par Google comme du contenu en double, ce qui est une bonne question. Il pourrait arriver que quelqu'un en dehors du site Web soit lié à la LLMS.txt et que Google puisse commencer à faire surface ce contenu au lieu de ou en plus du contenu HTML.
C'est la question demandé:
« Google Affichera-t-il les fichiers LLMS.TXT comme du contenu en double? Il semble raide à le faire, étant donné qu'ils savent que ce n'est pas le cas, et à quoi cela sert vraiment.
Dois-je ajouter un en-tête « NOINDEX » pour LLMS.TXT pour Googlebot? «
John Mueller de Google a répondu:
«Ce ne serait en double du contenu que si le contenu était le même qu'une page HTML, ce qui n'aurait pas de sens (en supposant que le fichier lui-même était utile).
Cela dit, l'utilisation de NOINDEX pourrait avoir un sens, car les sites pourraient s'y connecter et cela pourrait autrement devenir indexé, ce qui serait bizarre pour les utilisateurs. »
Noindex pour llms.txt
L'utilisation d'un en-tête NOINDEX pour le LLMS.TXT est une bonne idée car elle empêchera le contenu d'entrer dans l'index de Google. L'utilisation d'un robots.txt pour bloquer Google n'est pas nécessaire car cela ne fera qu'empêcher Google de ramper le fichier, ce qui l'empêchera de voir le noindex.
Image en vedette par Shutterstock / Krakenimages.com