John Mueller, de Google, a expliqué le rôle de TF-IDF dans l’algorithme de Google. Il a expliqué en quoi cela consistait et a proposé un meilleur moyen d'optimiser le classement des pages Web.

Qu'est-ce que TF-IDF?

Wikipedia a une définition concise de ce que TF-IDF est:

“… Tf – idf ou TFIDF, en abrégé fréquence sur document – fréquence de document inverse, est une statistique numérique censée refléter l'importance d'un mot pour un document d'une collection… La valeur de TF-IDF augmente proportionnellement au nombre de fois un mot apparaît dans le document et est compensé par le nombre de documents du corpus contenant le mot, ce qui permet de s’adapter au fait que certains mots apparaissent plus souvent en général. ”

L'essentiel sur lequel il convient de se focaliser est que TF-IDF est une métrique liée à l'ensemble de la «collection» ou du «corpus». Cela signifie toutes les pages Web contenant un mot ou une phrase spécifique. Dans le cas d'une recherche sur le Web, cela signifie que la métrique dépend de la fréquence à laquelle le mot ou la phrase apparaît dans chaque page Web existante en ligne. Ceci est une analyse statistique.

Cette partie sur “sCertains mots apparaissent plus souvent en général”Traite de la manière dont TF-IDF est utilisé pour capturer et supprimer les mots couramment utilisés (et, a, le). Le TF-IDF est important pour supprimer les mots courants (comme, a, et le) des fins de classement.

TF-IDF est utilisé pour créer des moyennes statistiques d'utilisation de mots et de phrases sur le Web. Ce n’est pas la solution de contenu magique suggérée par certaines personnes.

Voici la question.

«Que pensez-vous des mots-clés TF-IDF? Google utilise-t-il un mécanisme similaire?

Devrions-nous en profiter pour améliorer notre contenu? « 

John Mueller a répondu:

«… Les mots clés TF-IDF sont essentiellement une métrique utilisée dans la recherche d'informations.»

Cette référence à la «recherche d'informations» est une référence au domaine général de la recherche d'informations. Cela inclut la science de la recherche dans la boîte de réception GMAIL. La recherche d'information est un terme quelque peu ambigu.

Puis il dit ceci:

«Pour essayer de comprendre quels sont les mots pertinents sur une page, nous utilisons une tonne de techniques différentes à partir de la recherche d'informations. Et des tonnes de ces mesures sont apparues au fil des ans. « 

Ceci est une allusion au fait que se concentrer sur une ancienne métrique utile pour trouver des «mots vides» n'est pas utile, car de nombreuses autres techniques sont utilisées.

TF-IDF et classement dans Google

“… Ma recommandation générale ici est de ne pas mettre l'accent sur ce type de métrique artificielle… parce que, d'une part, vous ne pouvez pas reproduire directement cette métrique, car elle est basée sur l'index global de tout le contenu du Web.

Donc, ce n’est pas que vous puissiez dire que c’est bien, c’est ce que je dois faire, parce que vous n’avez pas vraiment cette métrique. « 

Cela signifie qu’il est impossible de calculer la métrique TF-IDF car elle repose sur des statistiques de l’ensemble du Web.

Recommandations de John Mueller pour un meilleur classement

John Mueller a ensuite décrit une meilleure alternative à la concentration sur la TF-IDF:

« Au lieu de cela, je vous recommande fortement de vous concentrer sur votre site Web et sur ses utilisateurs et de vous assurer que ce que vous proposez est un élément que Google reconnaîtra et continuera d'utiliser à l'avenir comme un élément de valeur. »

Mueller a révélé qu'il s'agit d'une très ancienne métrique, ce qui implique que la récupération d'informations moderne est devenue plus sophistiquée:

«L’autre chose est que… c’est une métrique assez ancienne et les choses ont beaucoup évolué au fil des ans. … Il y a beaucoup d'autres mesures également. ”

Il a ensuite ajouté que se concentrer sur les utilisateurs est une meilleure approche car elle est à l’abri des changements. Google s'efforce de fournir les résultats de recherche les plus utiles. Si vous vous concentrez sur du contenu utile, la page restera probablement populaire et affichée sur Google.

Voici ce que Mueller a dit

«Donc, si je me concentre aveuglément sur un seul type de mesure théorique et que nous essayons d’insérer ces mots dans vos pages, je ne pense pas que ce soit une chose utile.

Je pense que c’est une pensée à courte vue, car vous vous concentrez uniquement sur un moteur de recherche où vous pensez que ces mots ont un effet plus important.

Donc, ne vous concentrez pas uniquement sur l’ajout artificiel de mots-clés. Assurez-vous de faire en sorte que tous les nouveaux algorithmes continuent de regarder vos pages et de vous dire que c’est vraiment génial. Nous devrions le montrer de manière plus visible dans les résultats de recherche. « 

TF-IDF et SEO

  • Une utilisation majeure de TF-IDF est la recherche de mots vides tels que une, la, et et.
  • Ceci est une métrique de contenu ancienne et basique
  • Il existe de nombreuses autres mesures de contenu qui sont meilleures que les mesures de base et simples de TF-IDF.
  • Les personnes qui font la promotion de la TF-IDF en tant que métrique de classement importante se trompent et trahissent un manque de compréhension de la complexité de la récupération des informations.

Regarder le Google Webmaster Hangout ici.

Captures d'écran par auteur, modifiées par l'auteur



Source link