Les fournisseurs d'IA qui concluent des accords avec les éditeurs pourraient conduire à plus de précision dans les LLM

Alors que beaucoup ont proclamé l'arrivée de l'IA générative avancée comme la mort de l'édition telle que nous la connaissons, au cours des dernières semaines, nous avons assisté à un nouveau changement qui pourrait en fait apporter des avantages significatifs aux éditeurs grâce au changement de l'IA.

Car si les outils d'IA et les grands modèles de langage (LLM) qui les alimentent peuvent produire des résultats étonnamment proches de ceux des humains, tant pour le texte que pour les visuels, nous découvrons également de plus en plus que les données d'entrée réelles sont d'une importance cruciale et que le fait d'avoir plus n’est pas nécessairement mieux à cet égard.

Prenez, par exemple, le dernier composant de recherche générative AI de Google et les réponses parfois bizarres qu'il partage.

Le chef de Google, Sundar Pichai, a reconnu qu'il y avait des failles dans ses systèmes, mais selon lui, celles-ci sont en réalité inhérentes à la conception des outils eux-mêmes.

Selon Pichai (via The Verge) :

« Vous arrivez à un point plus profond où les hallucinations sont toujours un problème non résolu. D'une certaine manière, c'est une fonctionnalité inhérente. C'est ce qui rend ces modèles très créatifs […] Mais les LLM ne constituent pas nécessairement la meilleure approche pour toujours accéder à la réalité.

Pourtant, des plateformes comme Google présentent ces outils comme des systèmes auxquels vous pouvez poser des questions et obtenir des réponses. Donc, s’ils ne fournissent pas de réponses précises, c’est un problème, et non quelque chose qui peut être expliqué comme des événements aléatoires qui vont toujours, inévitablement, exister.

Car même si les plateformes elles-mêmes souhaitent tempérer les attentes en matière de précision, les consommateurs se réfèrent déjà aux chatbots pour cela.

À cet égard, il est quelque peu étonnant de voir Pichai reconnaître que les outils d'IA ne fourniront pas de « factualité » tout en leur permettant également de fournir des réponses aux chercheurs. Mais l’essentiel ici est que l’accent mis sur les données à grande échelle va inévitablement changer, et il ne s’agira pas seulement de la quantité de données que vous pouvez incorporer, mais aussi de la précision de ces données, afin de garantir que de tels systèmes produisent des résultats bons et utiles.

C’est là qu’interviennent le journalisme et d’autres formes d’apports de haute qualité.

OpenAI a déjà conclu un nouvel accord avec NewsCorp pour importer du contenu de News Corp publie des publications dans ses modèles, tandis que Meta envisagerait désormais la même chose. Ainsi, même si les publications risquent de perdre du trafic au profit des systèmes d’IA qui fournissent toutes les informations dont les chercheurs ont besoin dans l’écran des résultats de recherche lui-même ou dans la réponse d’un chatbot, elles pourraient, du moins en théorie, récupérer au moins une partie de ces pertes grâce aux données. partager des offres conçues pour améliorer la qualité des LLM.

De tels accords pourraient également réduire l’influence de fournisseurs d’informations douteux et partisans, en excluant leur contribution des mêmes modèles. Si OpenAI, par exemple, concluait des accords avec tous les grands éditeurs, tout en supprimant les colporteurs de complot les plus « à chaud », la précision des réponses dans ChatGPT s’améliorerait sûrement.

À cet égard, il s’agira moins de synthétiser l’ensemble de l’Internet que d’apporter de la précision à ces modèles, grâce à des partenariats avec des fournisseurs établis et fiables, qui comprendraient également des éditeurs universitaires, des sites Web gouvernementaux, des associations scientifiques, etc.

Google serait déjà bien placé pour le faire, car grâce à ses algorithmes de recherche, il dispose déjà de filtres pour prioriser les sources d’informations les meilleures et les plus précises. En théorie, Google pourrait affiner ses modèles Gemini pour, par exemple, exclure tous les sites qui tombent en dessous d'un certain seuil de qualité, ce qui devrait entraîner une amélioration immédiate de ses modèles.

Il y a bien plus que cela, bien sûr, mais le concept est que vous allez de plus en plus voir les créateurs de LLM s'éloigner de la construction des plus grands modèles possibles et se tourner davantage vers des intrants raffinés et de qualité.

Ce qui pourrait aussi être une mauvaise nouvelle pour la plateforme xAI d’Elon Musk.

xAI, qui a récemment levé 6 milliards de dollars supplémentaires en capital, vise à créer un système d’IA de « recherche maximale de la vérité », qui ne soit pas contraint par le politiquement correct ou la censure. Pour ce faire, xAI est alimenté par X posts. Ce qui est probablement un avantage en termes de rapidité, mais probablement pas tellement en termes d’exactitude.

De nombreuses théories du complot fausses et mal informées gagnent encore du terrain sur X, souvent amplifiées par Musk lui-même, et cela, compte tenu de ces tendances plus larges, semble être plus un obstacle qu’un avantage. Elon et ses nombreux partisans, bien sûr, verraient les choses différemment, leurs opinions de centre-gauche étant « réduites au silence » par le mystérieux marionnettiste auquel ils s'opposent cette semaine. Mais la vérité est que la majorité de ces théories sont incorrectes, et les intégrer aux modèles Grok de xAI ne fera que polluer l'exactitude de ses réponses.

Mais à une échelle plus large, c’est vers cela que nous nous dirigeons. La plupart des éléments structurels des modèles d’IA actuels ont désormais été établis, et la saisie des données constitue désormais le plus grand défi à relever. Comme le note Pichai, certains d’entre eux sont inhérents et existeront toujours, car ces systèmes tentent de donner un sens aux données fournies. Mais au fil du temps, la demande de précision augmentera, et à mesure que de plus en plus de sites Web empêchent OpenAI et d'autres sociétés d'IA de récupérer leurs URL pour la saisie LLM, ils devront de toute façon établir des accords de données avec davantage de fournisseurs.

Choisir ces prestataires pourrait être considéré comme de la censure et pourrait entraîner d’autres défis. Mais ils conduiront également à des réponses factuelles plus précises de la part de ces outils de robots IA.

By : manuboss