La compréhension du langage naturel a été difficile à résoudre, mais grâce à l’investissement continu de Google dans l’IA, elle a atteint un tout nouveau niveau. À I / O 2021, Google a présenté MUM – Multitask United Model. Selon Google, ce nouveau modèle de langage est 1000 fois plus puissant que BERT, sorti en 2019. MUM arrivera sur les produits Google dans le futur.
Qu’est-ce que MUM: Multitask United Model?
MAMAN est un modèle de langage construit sur le même système de transformateur que BERT, qui a fait des vagues en 2019. BERT est un modèle de langage puissant qui a fait une percée lors de sa sortie. MUM, cependant, fait monter les enchères: selon Google, il est censé être 1000 fois plus puissant que BERT.
Une grande partie de ce pouvoir vient du fait qu’il peut effectuer plusieurs tâches à la fois. Il n’est pas nécessaire d’effectuer une tâche après l’autre, mais il peut gérer plusieurs tâches simultanément. Cela signifie qu’il peut lire du texte, comprendre le sens, acquérir des connaissances approfondies sur le sujet, utiliser la vidéo et l’audio pour renforcer et enrichir cela, obtenir des informations dans plus de 75 langues et traduire ces résultats en un contenu multicouche qui répond à des questions complexes. Tout à la fois!
Une idée de la puissance de Google MUM
Lors de I / O 2021, Prabhakar Raghavan de Google a donné un aperçu de la façon dont cela fonctionnerait. Il a utilisé la requête complexe «J’ai parcouru le mont. Adams et veulent maintenant faire une randonnée sur le mont. Fuji l’automne prochain, que dois-je faire différemment pour me préparer? » pour démontrer ce que MUM pourrait faire. Dans une session de recherche régulière, vous devrez rechercher vous-même tous les différents aspects. Une fois que vous avez tout, vous devez le combiner pour avoir toutes les réponses aux questions.
Désormais, MUM combinerait des informations provenant de nombreuses sources différentes sur de nombreux aspects différents de la recherche, de la mesure des montagnes à la suggestion d’un imperméable, car c’est la saison des pluies sur le mont. Fuji pour extraire des informations de sources japonaises. Après tout, il y a beaucoup plus d’écrit sur ce sujet spécifique dans cette langue.
Dans des requêtes complexes comme celle-ci, tout se résume à combiner des entités, des sentiments et une intention pour comprendre ce que signifie quelque chose. Les machines ont du mal à comprendre le langage humain, et les modèles de langage comme BERT et MUM sont très proches de le faire.
MUM va encore plus loin en traitant le langage et en ajoutant de la vidéo et des images car il est multimodal. Cela permet de générer un résultat riche qui répond à la requête en présentant un tout nouveau contenu. MUM sera même intégré à Google Lens, de sorte que vous puissiez pointer votre appareil photo vers vos chaussures de randonnée et demander si celles-ci sont adaptées à cette randonnée jusqu’au mont. Fuji!
Bien sûr, l’objectif final de tout cela est de vous aider à obtenir plus d’informations avec moins de requêtes de recherche – probablement dans les limites de Google lui-même. Nous avons constaté une augmentation constante des résultats riches et des réponses rapides, qui deviennent également plus visuelles et plus visibles de jour en jour. De nombreux autres développements, à la fois à l’intérieur et à l’extérieur de la recherche, brossent l’image d’un Google qui cherche à fournir lui-même la plupart des réponses à vos questions.
Sur la voie d’une recherche conversationnelle et visuelle entièrement alimentée par l’IA
Google est discrètement – non, grattez-le – se dirige ouvertement vers un moteur de recherche entièrement alimenté par l’IA. Un moteur de recherche n’est même pas le mot juste ici, car il s’agit plutôt d’une machine de présentation de connaissances. Et cela ne se passe pas dans le vide de cette fameuse barre de recherche.
De plus en plus, Google ouvre l’idée de la recherche pour inclure des entrées provenant de nombreuses autres sources – microphones, caméras, téléviseurs, appareils portables, haut-parleurs intelligents, qu’avez-vous (ils ont acheté Fitbit, vous vous souvenez?). Pour servir toutes ces différentes cibles d’une manière qui a du sens sur ces machines, la recherche et la présentation de la recherche doivent changer. Un microphone sur votre tracker de fitness doit entendre et comprendre votre requête, tandis que l’assistant doit faire quelque chose avec et répondre avec quelque chose d’utile.
La compréhension de la langue est essentielle. Le développement de modèles de langage ultra-puissants, efficaces et flexibles qui peuvent générer du contenu pour fournir ces réponses de manière succincte et naturelle deviendra essentiel.
À I / O 2021, nous en avons vu un autre exemple: LaMDA.
LaMDA: modèle de langage pour les applications de dialogue
Un autre grand tour d’horizon de l’IA dans le discours d’ouverture de Google I / O 2021 était LaMDA ou Modèle de langage pour les applications de dialogue. Il s’agit d’une nouvelle technologie pour communiquer avec une IA – comme un chatbot – beaucoup plus naturellement. Il peut converser de manière plus fluide que les IA précédentes, car ceux-ci suivent souvent un chemin simple de A à B. Les chatbots sont facilement confus lorsque vous changez de sujet, par exemple.
LaMDA entreprend de résoudre ce problème. Le modèle peut acquérir une grande quantité de connaissances sur un sujet et s’engager dans un dialogue bidirectionnel complet, même s’il s’aventure en dehors du sujet d’origine. Google a montré une démonstration d’un modèle LaMDA formé sur la connaissance de la planète Pluton pour en discuter avec l’un des chercheurs. Ce n’est pas parfait, mais cela donne une bonne idée du genre d’avenir auquel nous pouvons nous attendre.