Les modèles de correction orthographique multilingues à grande échelle de Microsoft Bing, appelés collectivement Speller100, sont déployés dans le monde entier avec une précision élevée et un rappel élevé dans plus de 100 langues.
Bing dit qu’environ 15% des requêtes soumises par les utilisateurs comportent des fautes d’orthographe, ce qui peut entraîner des réponses incorrectes et des résultats de recherche sous-optimaux.
Pour résoudre ce problème, Bing a construit ce qu’il dit être le système de correction orthographique le plus complet jamais conçu.
Dans les requêtes de test A / B avec et sans Speller100, Bing a observé les résultats suivants:
- Le nombre de pages sans résultat réduit jusqu’à 30%.
- Le nombre de fois que les utilisateurs ont dû reformuler manuellement leur requête a été réduit de 5%.
- Le nombre de fois où les utilisateurs ont cliqué sur une suggestion d’orthographe est passé d’un chiffre unique à 67%.
- Le nombre de fois où les utilisateurs ont cliqué sur un élément de la page est passé d’un chiffre unique à 70%.
Comment Bing a-t-il accompli cela? Continuez à lire pour en savoir plus sur Speller100.
Amélioration de la correction orthographique dans les résultats de recherche Bing
La correction orthographique est depuis longtemps une priorité pour Bing, et le moteur de recherche va encore plus loin avec l’inclusion de plus de langues du monde entier.
« Afin de rendre Bing plus inclusif, nous avons décidé d’étendre notre service de correction orthographique actuel à plus de 100 langues, en fixant la même barre élevée de qualité que celle que nous avons définie pour les deux douzaines de langues d’origine. »
Publicité
Continuer la lecture ci-dessous
Le lancement de Speller100 représente une avancée significative pour Bing et est rendu possible grâce aux progrès récents de l’IA.
La technologie derrière Speller100 est expliquée dans le récent article de blog de la société. Voici quelques détails clés de la nouvelle technologie de correction orthographique de Bing.
Technologie Speller100 de Microsoft Bing
Crédits Bing apprentissage zéro coup comme une avancée importante dans l’IA qui contribue à rendre Speller100 possible.
L’apprentissage sans coupure permet à un modèle d’IA d’apprendre et de corriger avec précision l’orthographe sans aucune donnée d’apprentissage étiquetée spécifique à la langue. Cela contraste avec les solutions de correction orthographique traditionnelles qui se sont appuyées uniquement sur les données de formation pour apprendre l’orthographe d’une langue.
S’appuyer sur les données de formation est un défi lorsqu’il s’agit de corriger l’orthographe des langues où la quantité de données est insuffisante. C’est le problème que l’apprentissage zéro-shot doit résoudre.
«Imaginez que quelqu’un vous ait appris à épeler en anglais et que vous appreniez automatiquement à épeler également en allemand, néerlandais, afrikaans, écossais et luxembourgeois. Cette C’est ce que permet l’apprentissage sans tir, et c’est un composant clé de Speller100 qui nous permet de nous étendre à des langues avec très peu ou pas de données. »
Publicité
Continuer la lecture ci-dessous
La correction orthographique n’est pas un traitement du langage naturel
Bing fait la distinction que, bien que des progrès significatifs aient été réalisés dans le traitement du langage naturel, la correction orthographique est une tâche totalement différente.
Toutes les fautes d’orthographe peuvent être classées en deux types:
- Erreur non mot: Se produit lorsque le mot ne fait pas partie du vocabulaire d’une langue donnée.
- Erreur de mot réel: Se produit lorsque le mot est valide mais ne rentre pas dans le contexte plus large.
Bing a développé une approche d’apprentissage en profondeur pour corriger ces fautes d’orthographe qui s’inspire du modèle BART de Facebook. Cependant, il diffère de BART en ce que la correction orthographique est présentée comme un problème au niveau des caractères.
Afin de résoudre un problème au niveau des caractères, le modèle Speller100 de Bing est formé à l’aide de mutations au niveau des caractères qui imitent les fautes d’orthographe.
Bing appelle ces «fonctions de bruit»:
«Nous avons conçu des fonctions de bruit pour générer des erreurs courantes de rotation, d’insertion, de suppression et de remplacement.
L’utilisation d’une fonction de bruit a considérablement réduit notre demande d’annotations étiquetées par l’homme, qui sont souvent nécessaires dans l’apprentissage automatique. Ceci est très utile pour les langues pour lesquelles nous disposons de peu ou pas de données de formation. »
Les fonctions de bruit permettent à Bing d’entraîner Speller100 à corriger l’orthographe des langues pour lesquelles il n’y a pas une grande quantité de données de requête mal orthographiées disponibles.
Au lieu de cela, Bing se contente de texte ordinaire extrait de pages Web qui est collecté via une exploration Web régulière. On dit qu’il y a une quantité suffisante de texte sur le Web pour faciliter la formation de centaines de langues.
«Cette tâche de pré-formation s’avère être une première étape solide pour résoudre la correction orthographique multilingue pour plus de 100 langues. Cela permet d’atteindre 50% de rappel de correction pour les meilleurs candidats dans les langues pour lesquelles nous n’avons aucune donnée de formation. »
Bien qu’il s’agisse d’une avancée significative, Bing affirme que 50% du rappel n’est pas suffisant. C’est là qu’entre en jeu l’apprentissage sans tir.
Pour les langues sans données de formation, Bing utilise la propriété d’apprentissage zero-shot pour cibler les familles de langues. Cela se fonde sur l’idée que la plupart des langues du monde sont connues pour être liées à d’autres.
Publicité
Continuer la lecture ci-dessous
«Cette similitude orthographique, morphologique et sémantique entre les langues d’un même groupe rend un modèle d’erreur d’apprentissage zéro coup très efficace et efficace…
L’apprentissage zéro-shot permet d’apprendre la prédiction orthographique pour ces langues à faibles ressources ou sans ressources. »
Le lancement de Speller100 dans Bing est la première étape d’un effort plus large visant à implémenter la technologie dans davantage de produits Microsoft.
La source: Blog Microsoft Research