Bill Slawski et j'ai eu une discussion par courrier électronique sur un algorithme récent. Bill a suggéré qu'un document de recherche spécifique et un brevet pourraient être intéressants à examiner. Ce que Bill a suggéré m'a mis au défi de penser au-delà de Neural Matching et RankBrain.
Des recherches récentes sur les algorithmes sont axées sur la compréhension du contenu et les requêtes de recherche. Il peut être utile de réfléchir à la manière dont ils pourraient aider à expliquer certains changements.
La différence entre RankBrain et Neural Matching
Ce sont des déclarations officielles de Google sur Qu'est-ce que RankBrain et Neural Matching? via les tweets de Danny Sullivan (aka SearchLiaison).
– RankBrain aide Google à mieux relier les pages aux concepts
… Travaille principalement (en quelque sorte) pour nous aider à trouver des synonymes pour les mots écrits sur une page….– L'appariement neuronal permet à Google de mieux associer les mots aux recherches.
… Travaille principalement pour (en quelque sorte) nous aider à trouver des synonymes de choses que vous avez tapées dans le champ de recherche.… « En quelque sorte » parce que nous avons (et avons longtemps eu) des systèmes de synonymes. Ceux-ci vont au-delà de ceux-ci et font les choses de différentes manières. Mais c’est un moyen facile (espérons-le) de les comprendre.
Par exemple, l’appariement neuronal nous aide à comprendre que la recherche de «pourquoi mon téléviseur a-t-elle l’air étrange» est-elle liée au concept «d’effet de soap opera»?
Nous pouvons alors renvoyer des pages sur l’effet de feuilleton, même si les mots exacts ne sont pas utilisés… »
Voici les URL des tweets décrivant ce qu'est la correspondance neuronale:
Qu'est-ce que CLSTM et est-il lié à l'appariement neuronal?
Le document que Bill Slawski a discuté avec moi s'intitulait Modèles de mémoire contextuelle à long terme (CLSTM) pour les tâches de traitement de langage naturel à grande échelle (NLP).
Le papier de recherche PDF est ici. Le brevet que Bill a suggéré était lié à cela est là.
C’est un document de recherche de 2016 et c’est important. Bill ne suggérait pas que le document et le brevet représentaient Neural Matching. Mais il a dit que ça avait l'air lié d'une certaine manière.
Le document de recherche utilise un exemple de machine formée pour comprendre le contexte du mot «magie» à partir des trois phrases suivantes, afin de montrer ce qu'il fait:
“1) Sir Ahmed Salman Rushdie est un romancier et essayiste indien britannique. On dit qu'il combine le réalisme magique avec la fiction historique.
2) Calvin Harris & HAIM associent leurs pouvoirs pour créer un clip vidéo magique.
3) Les herbes ont un pouvoir magique énorme, car elles retiennent l’énergie de la Terre. «
Le document de recherche explique ensuite comment cette méthode comprend le contexte du mot «magie» dans une phrase et un paragraphe:
«Une façon de saisir succinctement le contexte consiste à utiliser le sujet du segment de texte (par exemple, le sujet de la phrase, le paragraphe).
Si le contexte a pour thème «littérature», le mot suivant le plus probable devrait être «réalisme». Cette observation nous a motivés à explorer l'utilisation de rubriques de segments de texte pour capturer le contexte hiérarchique et à long terme du texte dans les modèles de texte.
… Nous intégrons des fonctionnalités contextuelles (à savoir des sujets basés sur différents segments de texte) dans le modèle LSTM et appelons le modèle résultant LSTM contextuel (CLSTM). ”
Cet algorithme est décrit comme étant utile pour
Prédiction de mots
Cela revient à prédire quel sera votre prochain mot saisi lors de la frappe sur un téléphone portable
Sélection de phrase suivante
Cela concerne une question et une tâche de réponse ou pour générer des «réponses intelligentes», des réponses basées sur un modèle dans des messages texte et des e-mails.
Prévision du sujet de la phrase
Le document de recherche décrit cela comme une partie d’une tâche de prédiction du sujet d’une réponse à une requête orale d’un utilisateur, afin de comprendre son intention.
Ce dernier aspect semble proche de ce que Neural Matching est en train de faire («…aide Google à mieux relier les mots aux recherches“).
Question répondant Algorithme
Le document de recherche suivant de 2019 semble être un raffinement de cet algo:
Un modèle hiérarchique de récupération de l'attention pour la réponse aux questions de santé
Vue d'ensemble
https://ai.google/research/pubs/pub47789
PDF
http://dmkd.cs.vt.edu/papers/WWW19.pdf
Voici ce que dit la vue d'ensemble:
«La plupart de ces requêtes peuvent être de nature non factoïde et, par conséquent, les modèles de récupération traditionnels basés sur des mots clés ne fonctionnent pas bien dans de tels cas.
En outre, dans de nombreux scénarios, il peut être souhaitable d’obtenir une réponse courte qui réponde suffisamment à la requête plutôt qu’un long document ne contenant que peu d’informations utiles.
Dans cet article, nous proposons un modèle de réseau de neurones pour classer les documents en réponse à une question dans le domaine de la santé. Le modèle proposé utilise un mécanisme d'attention profonde au niveau des mots, des phrases et des documents, pour une récupération efficace des requêtes factoïdes et non factoïdes, sur des documents de longueurs variées.
En particulier, l’attention croisée au niveau des mots permet au modèle d’identifier les mots les plus pertinents pour une requête, et l’attention hiérarchique au niveau des phrases et des documents lui permet de retrouver efficacement les documents longs et courts. ”
C’est un article intéressant à considérer.
Voici ce que dit le journal Healthcare Question Answering:
«2.2 Recherche d'informations neuronales
Avec le succès rencontré par les réseaux de neurones profonds dans l’apprentissage de la représentation par fonction de données textuelles, plusieurs architectures de classement neuronal ont été proposées pour la recherche de documents textuels.
… Tandis que le modèle proposé dans [22] utilise les dernières sorties d'état des encodeurs LSTM en tant que fonctionnalités de requête et de document. Ces deux modèles utilisent ensuite la similarité en cosinus entre les représentations de requête et de document pour calculer leur pertinence.
Cependant, dans la majorité des cas de récupération de documents, il est observé que le texte pertinent pour une requête est un très court morceau de texte du document. Par conséquent, la correspondance de la représentation groupée de l'ensemble du document avec celle de la requête ne donne pas de très bons résultats, car la représentation contient également des caractéristiques d'autres parties non pertinentes du document. ”
Ensuite, il est fait mention des modèles de correspondance de pertinence profonde:
«Pour surmonter les problèmes des modèles IR basés sur la correspondance sémantique au niveau du document, plusieurs modèles IR basés sur les interactions ont été proposés récemment. Dans [9], les auteurs proposent un modèle de correspondance de pertinence profonde (DRMM), qui utilise des fonctionnalités d’interaction basées sur le nombre de mots entre les mots de requête et de document… »
Et ici, il mentionne de manière intriguante axée sur l'attention Appariement neuronal Des modèles:
“… D'autres méthodes utilisant des fonctionnalités d'interaction au niveau des mots sont le modèle de correspondance neuronale basé sur l'attention. (aNMM) [42], qui utilise l'attention sur les mots imbriqués, et [36], qui utilise un fonctionnement en cosinus ou bilinéaire par rapport aux fonctions Bi-LSTM, pour calculer les caractéristiques d’interaction. ”
Correspondance neuronale basée sur l'attention
La citation de modèle de correspondance neuronale basé sur l’attention (aNMM) s’applique à un document de recherche non-Google de 2018.
Est-ce que aNMM avoir quelque chose à voir avec ce que Google appelle Neural Matching?
aNMM: classer les textes à réponses courtes avec un modèle de correspondance de neurones basé sur l'attention
Vue d'ensemble
https://arxiv.org/abs/1801.01641
PDF
https://arxiv.org/pdf/1801.01641.pdf
Voici un résumé de cet article:
«Au lieu de questionner les méthodes de réponse basées sur l’ingénierie des caractéristiques, des approches d’apprentissage approfondi telles que les réseaux de neurones à convolution (CNN) et Modèles de mémoire longs à court terme (LSTM) ont récemment été proposés pour la correspondance sémantique des questions et des réponses.
… Cependant, pour obtenir de bons résultats, ces modèles ont été combinés à des fonctionnalités supplémentaires telles que le chevauchement des mots ou les scores BM25. Sans cette combinaison, ces modèles sont nettement moins performants que les méthodes basées sur l’ingénierie des caractéristiques linguistiques.
Dans cet article, nous proposons un modèle d’appariement neuronal basé sur l’attention pour classer les réponses courtes. ”
Classement long, meilleur en 2018?
Jeff Coyle de MarketMuse Il a déclaré que dans la mise à jour du mois de mars, il avait constaté des flux importants dans les SERP contenant des listes longues (par exemple: Top 100 Movies).
C'était intéressant, car certains des algorithmes dont traite cet article ont pour objet de comprendre les longs articles et de les condenser en réponses. Plus précisément, cela ressemblait à ce que disait le document Healthcare Question Answering (Lis Stratégie de contenu et mise à jour de mars 2019 de Google).
Ainsi, lorsque Jeff a mentionné beaucoup de flux dans les SERP associés aux listes de formulaires longs, je me suis immédiatement rappelé ces documents de recherche récemment publiés, axés sur l'extraction de réponses du contenu de formulaires longs.
La mise à jour de mars 2019 pourrait-elle également inclure des améliorations dans la compréhension du contenu détaillé? Nous ne pouvons jamais savoir avec certitude, car ce n’est pas le niveau d’information révélé par Google.
Qu'est-ce que Google entend par correspondance neuronale?
Dans l'AMA Reddit, Gary Illyes décrit RankBrain comme un PR Sexy composant de classement. La partie «PR Sexy» de sa description implique que le nom a été donné à la technologie pour des raisons liées à la description et à l’accrochage et moins à ce qu’elle fait réellement.
Le terme RankBrain ne communique pas ce que la technologie est ou ne fait. Si nous cherchons un brevet «RankBrain», nous ne le trouverons pas. C’est peut-être parce que, comme Gary l’a dit, c’est juste un nom PR Sexy.
Au moment de l'annonce officielle du rapprochement neuronal, j'ai recherché des brevets et des recherches liées à Google contenant ces mots explicites et n'en ai trouvé aucun.
Alors… ce que j’ai fait est d’utiliser la description de Danny pour trouver des candidats probables. Et il se trouve que dix jours plus tôt, j'avais rencontré un candidat probable et commencé à écrire un article à ce sujet.
Classement par pertinence approfondie à l'aide d'interactions document-requête améliorées
PDF
http://www2.aueb.gr/users/ion/docs/emnlp2018.pdf
Vue d'ensemble
https://ai.google/research/pubs/pub47324
Et j'ai écrit ceci à propos de cet algorithme:
«Bien que cette recherche sur les algorithmes soit relativement récente, elle améliore une méthode révolutionnaire de réseau de neurones profonds pour accomplir une tâche appelée Classement de la pertinence des documents. Cette méthode est également appelée récupération ad hoc. ”
Afin de comprendre cela, je devais d'abord effectuer des recherches sur le classement de la pertinence des documents (RRC), ainsi que sur la récupération ad hoc, car la nouvelle recherche est construite sur cette base.
Récupération ad hoc
«Le classement de la pertinence des documents, également appelé récupération ad hoc… consiste à classer les documents d'une grande collection à l'aide de la requête et du texte de chaque document uniquement.»
Cela explique ce qu'est la récupération ad hoc. Mais n'explique pas ce qu'est la RDR utilisant des interactions document-requête améliorées.
Connexion à des synonymes
Un classement par pertinence approfondie utilisant des interactions document-requête améliorées est lié à des synonymes, une fonctionnalité de Neural Matching que Danny Sullivan décrit comme de super-synonymes.
Voici ce que décrit le document de recherche:
«Dans le paradigme basé sur l’interaction, des codages explicites entre des paires de requêtes et de documents sont induits. Cela permet la modélisation directe de termes identiques ou proches (par exemple, des synonymes), ce qui est essentiel pour le classement de la pertinence. ”
Ce qui semble être discuté est la compréhension des requêtes de recherche.
Maintenant, comparez cela avec la façon dont Danny a décrit Neural Matching:
«L'appariement neuronal est un système basé sur l'IA que Google a commencé à utiliser en 2018 principalement pour comprendre le lien entre les mots et les concepts. C’est comme un système super synonyme. Les synonymes sont des mots étroitement liés à d'autres mots… «
Le secret de l'appariement neuronal
Il se peut très bien que l’appariement neuronal soit plus qu’un seul algorithme. Il peut s’agir d’une variété d’algorithmes et l’appellation Neural Matching désigne un groupe d’algorithmes travaillant ensemble.
À emporter
Ne pas synonyme Spam
Je me suis un peu moqué quand Danny a mentionné les synonymes parce que j’imaginais que certains SEO pourraient être encouragés à commencer à semer leurs pages avec des synonymes. Je pense qu’il est important de noter que Danny a dit «comme» un système super synonyme.
Donc, ne croyez pas que cela signifie que l’on sème une page avec des synonymes. Les brevets et les documents de recherche ci-dessus sont bien plus sophistiqués que le simple spaming de synonymes.
Focus sur les mots, les phrases et les paragraphes
Un autre avantage de ces brevets est qu’ils décrivent un moyen d’attribuer une signification thématique à trois niveaux différents d’une page Web. Les écrivains naturels peuvent parfois écrire rapidement et communiquer un sens fondamental qui colle au sujet. Ce talent vient avec une vaste expérience.
Tout le monde n'a pas ce talent ou cette expérience. Donc, pour le reste d'entre nous, y compris moi-même, je pense qu'il est utile de planifier et d'écrire avec soin le contenu et d'apprendre à se concentrer.
Contenu long ou contenu long
Je ne dis pas que Google préfère les contenus longs. Je signale simplement que nombre des nouveaux documents de recherche abordés dans le présent article sont axés sur une meilleure compréhension du contenu d'un formulaire long en comprenant le sens du sujet de ces mots, phrases et paragraphes.
Par conséquent, si vous constatez une baisse de classement, il peut être utile de passer en revue les gagnants et les perdants et de voir s’il existe des preuves de l’évolution susceptible d’être liée à un contenu abrégé ou abrégé.
La Google Dance
Google mettait à jour son moteur de recherche une fois par mois avec de nouvelles données et parfois de nouveaux algorithmes. Les changements de classement mensuels étaient ce que nous avons appelé la Google Dance.
Désormais, Google actualise son index quotidiennement (ce que l’on appelle une mise à jour progressive). Plusieurs fois par an, Google met à jour les algorithmes d'une manière qui représente généralement une amélioration de la compréhension par Google des requêtes de recherche et du contenu. Ces documents de recherche sont typiques de ce type d’améliorations. Il est donc important de les connaître afin de ne pas se laisser berner par les sifflements et les hypothèses invraisemblables.