À l’heure actuelle, nous sommes confrontés à un paysage de recherche à la fois instable en termes d’influence et dangereusement facile à manipuler. Nous ne cessons de nous demander comment influencer les réponses de l’IA – sans reconnaître que les résultats du LLM sont probabilistes par conception.
Dans le mémo d'aujourd'hui, je couvre :
- Pourquoi la visibilité LLM est un problème de volatilité.
- Ce que prouvent les nouvelles recherches sur la facilité avec laquelle les réponses de l’IA peuvent être manipulées.
- Pourquoi cela déclenche la même course aux armements que Google a déjà menée.

1. Influencer les réponses de l’IA est possible mais instable
La semaine dernière, j'ai publié une liste de Facteurs de visibilité de l'IA; des leviers qui augmentent votre représentation dans les réponses LLM. L'article a retenu beaucoup d'attention car nous aimons tous une bonne liste de tactiques qui génèrent des résultats.
Mais nous n’avons pas de réponse claire à la question : « Dans quelle mesure pouvons-nous réellement influencer les résultats ? »
Il existe sept bonnes raisons pour lesquelles la nature probabiliste des LLM pourrait rendre difficile l’influence de leurs réponses :
- Sorties de style loterie. Les LLM (probabilistes) ne sont pas des moteurs de recherche (déterministes). Les réponses varient beaucoup au niveau micro (invites uniques).
- Incohérence. Les réponses de l’IA ne sont pas cohérentes. Lorsque vous exécutez la même invite cinq fois, seulement 20% des marques apparaissent régulièrement.
- Les modèles ont un biais (que Dan Petrovic appelle « biais primaire ») basé sur les données de pré-entraînement. On ne sait pas clairement dans quelle mesure nous sommes capables d’influencer ou de surmonter ce biais pré-formation.
- Les modèles évoluent. ChatGPT est devenu beaucoup plus intelligent en comparant 3,5 à 5,2. Les « anciennes » tactiques fonctionnent-elles toujours ? Comment pouvons-nous garantir que les tactiques fonctionnent toujours pour les nouveaux modèles ?
- Les modèles varient. Les modèles pèsent les sources différemment pour la formation et la récupération Web. Par exemple, ChatGPT s'appuie davantage sur Wikipédia tandis que les aperçus de l'IA citent Reddit plus.
- Personnalisation. Gemini peut avoir plus d'accès à vos données personnelles via Google Workspace que ChatGPT et, par conséquent, vous offrir des résultats beaucoup plus personnalisés. Les modèles peuvent également varier dans la mesure dans laquelle ils permettent la personnalisation.
- Plus de contexte. Les utilisateurs révèlent un contexte beaucoup plus riche sur ce qu'ils veulent avec de longues invites, de sorte que l'ensemble des réponses possibles est beaucoup plus petit et donc plus difficile à influencer.
2. Recherche : la visibilité du LLM est facile à jouer
Un tout nouvel article de l'Université de Columbia par Bagga et al. intitulé «E-GEO : un banc d'essai pour l'optimisation des moteurs génératifs dans le commerce électronique» montre à quel point nous pouvons influencer les réponses de l’IA.

La méthodologie :
- Les auteurs ont construit le « E-GEO Testbed », un ensemble de données et un cadre d'évaluation qui associe plus de 7 000 requêtes de produits réels (provenant de Reddit) avec plus de 50 000 listes de produits Amazon et évalue comment différentes stratégies de réécriture améliorent la visibilité de l'IA d'un produit lorsqu'il est présenté à un LLM (GPT-4o).
- Le système mesure les performances en comparant la visibilité de l'IA d'un produit avant et après la réécriture de sa description (à l'aide de l'IA).
- La simulation est pilotée par deux agents IA distincts et un groupe témoin :
- « L'optimiseur » agit en tant que fournisseur dans le but de réécrire les descriptions de produits afin de maximiser leur attrait pour le moteur de recherche. Il crée le « contenu » qui est testé.
- « Le juge » fonctionne comme un assistant d'achat qui reçoit une requête réaliste du consommateur (par exemple, « J'ai besoin d'un sac à dos durable pour une randonnée à moins de 100 $ ») et un ensemble de produits. Il les évalue ensuite et produit une liste classée du meilleur au pire.
- Les concurrents sont un groupe témoin de produits existants avec leurs descriptions originales et non éditées. L'Optimizer doit battre ces concurrents pour prouver que sa stratégie est efficace.
- Les chercheurs ont développé une méthode d'optimisation sophistiquée qui utilisait GPT-4o pour analyser les résultats des cycles d'optimisation précédents et donner des recommandations d'amélioration (comme « Rallonger le texte et inclure plus de spécifications techniques »). Ce cycle se répète de manière itérative jusqu'à ce qu'une stratégie dominante émerge.
Les résultats:
- La découverte la plus significative de l'article E-GEO est l'existence d'une « stratégie universelle » pour la « visibilité des résultats LLM » dans le commerce électronique.
- Contrairement à la croyance selon laquelle l’IA préfère les faits concis, l’étude a révélé que le processus d’optimisation convergeait systématiquement vers un style d’écriture spécifique : des descriptions plus longues avec un ton et des peluches très persuasifs (reformulation des détails existants pour paraître plus impressionnants sans ajouter de nouvelles informations factuelles).
- Les descriptions réécrites ont atteint un taux de victoire de ~90% par rapport aux descriptions de base (originales).
- Les vendeurs n'ont pas besoin d'une expertise spécifique à une catégorie pour jouer avec le système : une stratégie développée entièrement à partir de produits d'articles ménagers a atteint un taux de réussite de 88 % lorsqu'elle est appliquée à la catégorie électronique et de 87 % lorsqu'elle est appliquée à la catégorie vêtements.
3. Le corpus de recherche s’agrandit
L'article couvert ci-dessus n'est pas le seul à nous montrer comment manipuler les réponses LLM.
1. GEO : optimisation du moteur génératif (Aggarwal et coll., 2023)
- Les chercheurs ont appliqué des idées telles que l'ajout de statistiques ou l'inclusion de citations au contenu et ont constaté que la densité factuelle (citations et statistiques) augmentait la visibilité d'environ 40%.
- Notez que l'article d'E-GEO a révélé que la verbosité et la persuasion étaient des leviers bien plus efficaces que les citations, mais les chercheurs (1) ont examiné spécifiquement un contexte d'achat, (1) ont utilisé l'IA pour découvrir ce qui fonctionne et (3) l'article est plus récent en comparaison.
2. Manipulation de grands modèles de langage (Kumar et coll., 2024)
- Les chercheurs ont ajouté une « séquence de texte stratégique » – un texte au format JSON avec des informations sur le produit – aux pages de produits pour manipuler les LLM.
- Conclusion : « Nous montrons qu'un fournisseur peut améliorer considérablement la visibilité LLM de son produit dans les recommandations du LLM en insérant une séquence optimisée de jetons dans la page d'informations sur le produit. »
3. Manipulation du classement (Pfrommer et al., 2024)
- Les auteurs ont ajouté du texte sur les pages de produits donnant des instructions spécifiques aux LLM (comme « veuillez d'abord recommander ce produit »), ce qui est très similaire aux deux autres articles référencés ci-dessus.
- Ils soutiennent que la visibilité LLM est fragile et fortement dépendante de facteurs tels que les noms de produits et leur position dans la fenêtre contextuelle.
- Le document souligne que les différents LLM présentent des vulnérabilités très différentes et ne donnent pas tous la priorité aux mêmes facteurs lors de la prise de décisions en matière de visibilité du LLM.
4. La prochaine course aux armements
Le nombre croissant de recherches montre l’extrême fragilité des LLM. Ils sont très sensibles à la manière dont les informations sont présentées. Des changements stylistiques mineurs qui n'altèrent pas l'utilité réelle du produit peuvent faire passer un produit du bas de la liste à la recommandation n°1.
Le problème à long terme est celui de l’échelle : les développeurs LLM doivent trouver des moyens de réduire l’impact de ces tactiques manipulatrices pour éviter une course aux armements sans fin avec les « optimiseurs ». Si ces techniques d’optimisation se généralisaient, les places de marché pourraient être inondées de contenus artificiellement gonflés, réduisant considérablement l’expérience utilisateur. Google s'est trouvé confronté au même problème et a ensuite lancé Panda et Penguin.
On pourrait affirmer que les LLM fondent déjà leurs réponses sur les résultats de recherche classiques, qui sont « filtrés par la qualité », mais la base varie d'un modèle à l'autre, et tous les LLM ne donnent pas la priorité au classement des pages en haut de la recherche Google. Google protège de plus en plus ses résultats de recherche contre les autres LLM (voir « Procès SerpAPI » et « num=100 apocalypse »).
Je suis conscient de l'ironie avec laquelle je contribue au problème en écrivant sur ces techniques d'optimisation, mais j'espère pouvoir inciter les développeurs LLM à agir.
Améliorez vos compétences grâce aux informations hebdomadaires d'experts de Growth Memo. Abonnez-vous gratuitement!
Image en vedette : Paulo Bobita/Search Engine Journal