La nouvelle technologie de Google aide à créer de puissants algorithmes de classement


Google a annoncé la sortie d’une technologie améliorée qui facilite et accélère la recherche et le développement de nouveaux algorithmes pouvant être déployés rapidement.

Cela donne à Google la possibilité de créer rapidement de nouveaux algorithmes anti-spam, d’améliorer le traitement du langage naturel et les algorithmes de classement et de les mettre en production plus rapidement que jamais.

L’amélioration du classement TF coïncide avec les dates des récentes mises à jour de Google

Ceci est intéressant car Google a déployé plusieurs algorithmes de lutte contre le spam et deux mises à jour d’algorithmes de base en juin et juillet 2021. Ces développements ont directement suivi la publication en mai 2021 de cette nouvelle technologie.

Le timing pourrait être une coïncidence, mais compte tenu de tout ce que fait la nouvelle version de TF-Ranking basé sur Keras, il peut être important de s’y familiariser afin de comprendre pourquoi Google a accéléré le rythme de publication de nouvelles mises à jour d’algorithmes liées au classement.

Nouvelle version du classement TF basé sur Keras

Google a annoncé une nouvelle version de TF-Ranking qui peut être utilisée pour améliorer l’apprentissage neuronal pour classer les algorithmes ainsi que les algorithmes de traitement du langage naturel comme BERT.

Publicité

Continuer la lecture ci-dessous

C’est un moyen puissant de créer de nouveaux algorithmes et d’amplifier ceux qui existent déjà, pour ainsi dire, et de le faire d’une manière incroyablement rapide.

Classement TensorFlow

Selon Google, TensorFlow est une plate-forme d’apprentissage automatique.

Dans une vidéo YouTube de 2019, la première version du classement TensorFlow était décrite comme suit :

« La première bibliothèque d’apprentissage en profondeur open source pour apprendre à classer (LTR) à grande échelle. »

L’innovation de la plate-forme TF-Ranking originale était qu’elle changeait la façon dont les documents pertinents étaient classés.

Auparavant, les documents pertinents étaient comparés les uns aux autres dans ce qu’on appelle un classement par paires. La probabilité qu’un document soit pertinent pour une requête a été comparée à la probabilité d’un autre élément.

Il s’agissait d’une comparaison entre des paires de documents et non d’une comparaison de la liste entière.

L’innovation de TF-Ranking est qu’il a permis de comparer l’ensemble de la liste des documents à la fois, ce que l’on appelle le scoring multi-items. Cette approche permet de meilleures décisions de classement.

Publicité

Continuer la lecture ci-dessous

Le classement TF amélioré permet le développement rapide de nouveaux algorithmes puissants

L’article de Google publié sur son blog AI indique que le nouveau TF-Ranking est une version majeure qui facilite plus que jamais la configuration des modèles d’apprentissage du classement (LTR) et leur permet de les mettre en production plus rapidement.

Cela signifie que Google peut créer de nouveaux algorithmes et les ajouter pour rechercher plus rapidement que jamais.

L’article précise :

« Notre modèle de classement Keras natif a une toute nouvelle conception de workflow, y compris un ModelBuilder flexible, un DatasetBuilder pour configurer les données d’entraînement et un Pipeline pour entraîner le modèle avec l’ensemble de données fourni.

Ces composants rendent la construction d’un modèle LTR personnalisé plus facile que jamais et facilitent l’exploration rapide de nouvelles structures de modèle pour la production et la recherche.

Classement TF BERT

Lorsqu’un article ou un document de recherche indique que les résultats étaient légèrement meilleurs, propose des mises en garde et indique que des recherches supplémentaires étaient nécessaires, cela indique que l’algorithme en discussion pourrait ne pas être utilisé car il n’est pas prêt ou une impasse.

Ce n’est pas le cas de TFR-BERT, une combinaison de TF-Ranking et de BERT.

BERT est une approche d’apprentissage automatique du traitement du langage naturel. C’est un moyen de comprendre les requêtes de recherche et le contenu des pages Web.

BERT est l’une des mises à jour les plus importantes de Google et de Bing au cours des dernières années.

L’article indique que la combinaison de TF-R avec BERT pour optimiser l’ordre des entrées de liste générées « améliorations significatives. « 

Cette affirmation selon laquelle les résultats étaient significatifs est importante car elle augmente la probabilité qu’une telle chose soit actuellement utilisée.

L’implication est que le TF-Ranking basé sur Keras a rendu BERT plus puissant.

D’après Google :

« Notre expérience montre que cette architecture TFR-BERT offre des améliorations significatives dans les performances des modèles de langage pré-entraînés, conduisant à des performances de pointe pour plusieurs tâches de classement populaires… »

Classement TF et GAM

Il existe un autre type d’algorithme, appelé Modèles additifs généralisés (GAMs), que TF-Ranking améliore également et en fait une version encore plus puissante que l’originale.

L’une des choses qui rend cet algorithme important est qu’il est transparent dans la mesure où tout ce qui entre dans la génération du classement peut être vu et compris.

Publicité

Continuer la lecture ci-dessous

Google a expliqué l’importance de la transparence comme ceci :

« La transparence et l’interprétabilité sont des facteurs importants dans le déploiement de modèles LTR dans les systèmes de classement qui peuvent être impliqués dans la détermination des résultats de processus tels que l’évaluation de l’éligibilité au prêt, le ciblage de la publicité ou l’orientation des décisions de traitement médical.

Dans de tels cas, la contribution de chaque caractéristique individuelle au classement final doit être examinable et compréhensible pour garantir la transparence, la responsabilité et l’équité des résultats.

Le problème avec les GAM est qu’on ne savait pas comment appliquer cette technologie aux problèmes de type classement.

Afin de résoudre ce problème et de pouvoir utiliser les GAM dans un cadre de classement, TF-Ranking a été utilisé pour créer des modèles additifs généralisés de classement neuronal (GAM) plus ouverts sur le classement des pages Web.

Google appelle ça, Apprentissage interprétable pour le classement.

Voici ce que dit l’article de Google AI :

« À cette fin, nous avons développé un GAM de classement neuronal – une extension des modèles additifs généralisés aux problèmes de classement.

Contrairement aux GAM standard, un GAM de classement neuronal peut prendre en compte à la fois les caractéristiques des éléments classés et les caractéristiques contextuelles (par exemple, une requête ou un profil d’utilisateur) pour dériver un modèle interprétable et compact.

Par exemple, dans la figure ci-dessous, l’utilisation d’un classement neuronal GAM rend visible comment la distance, le prix et la pertinence, dans le contexte d’un appareil utilisateur donné, contribuent au classement final de l’hôtel.

Les GAM de classement neuronal sont désormais disponibles dans le cadre de TF-Ranking… »

Exemple de classement de requête de recherche d'hôtels GAMS

J’ai interrogé Jeffery Coyle, co-fondateur de la technologie d’optimisation de contenu AI MUSE, sur le classement TF et les GAM.

Publicité

Continuer la lecture ci-dessous

Jeffrey, qui a une formation en informatique ainsi que des décennies d’expérience dans le marketing de recherche, a noté que les GAM sont une technologie importante et que son amélioration était un événement important.

Jeffrey Coyle a partagé :

« J’ai passé le plus de temps à rechercher l’innovation des GAM de classement neuronal et l’impact possible sur l’analyse du contexte (pour les requêtes), ce qui est un objectif à long terme des équipes de notation de Google.

Neural RankGAM et les technologies associées sont des armes mortelles pour la personnalisation (notamment les données utilisateur et les informations contextuelles, comme l’emplacement) et pour l’analyse des intentions.

Avec keras_dnn_tfrecord.py disponible comme exemple public, nous avons un aperçu de l’innovation à un niveau de base.

Je recommande à tout le monde de vérifier ce code.

Arbres de décision améliorés par gradient (BTDT)

Battre la norme dans un algorithme est important car cela signifie que la nouvelle approche est une réussite qui améliore la qualité des résultats de recherche.

Dans ce cas, la norme est celle des arbres de décision à gradient boosté (GBDT), une technique d’apprentissage automatique qui présente plusieurs avantages.

Publicité

Continuer la lecture ci-dessous

Mais Google explique aussi que les GBDT ont aussi des inconvénients :

« Les GBDT ne peuvent pas être appliqués directement à de grands espaces de fonctionnalités discrets, tels que le texte brut d’un document. Ils sont également, en général, moins évolutifs que les modèles de classement neuronal.

Dans un document de recherche intitulé, Les classements neuronaux sont-ils toujours surclassés par les arbres de décision à gradient optimisé ? les chercheurs déclarent que l’apprentissage neuronal pour classer les modèles est « par une large marge inférieure » aux… implémentations basées sur l’arbre.« 

Les chercheurs de Google ont utilisé le nouveau TF-Ranking basé sur Keras pour produire ce qu’ils ont appelé, Croix latente auto-attentive augmentée de données (DASALC) maquette.

DASALC est important car il est capable d’égaler ou de surpasser les références actuelles de l’état de l’art :

«Nos modèles sont capables de fonctionner comparativement à la base de référence solide basée sur des arbres, tout en surpassant l’apprentissage neuronal récemment publié pour classer les méthodes par une large marge. Nos résultats servent également de référence pour l’apprentissage neuronal pour classer les modèles.

Le classement TF basé sur Keras accélère le développement d’algorithmes de classement

Le point important à retenir est que ce nouveau système accélère la recherche et le développement de nouveaux systèmes de classement, qui incluent l’identification du spam pour les classer hors des résultats de recherche.

Publicité

Continuer la lecture ci-dessous

L’article conclut :

« Dans l’ensemble, nous pensons que la nouvelle version TF-Ranking basée sur Keras facilitera la recherche neuronale LTR et le déploiement de systèmes de classement de niveau production.

Google a innové à un rythme de plus en plus rapide ces derniers mois, avec plusieurs mises à jour d’algorithmes de spam et deux mises à jour d’algorithmes de base en deux mois.

Ces nouvelles technologies peuvent expliquer pourquoi Google a déployé tant de nouveaux algorithmes pour améliorer la lutte contre le spam et le classement des sites Web en général.

Citations

Article de blog sur l’IA de Google
Avancées dans le classement TF

Le nouvel algorithme DASALC de Google
Les classements neuronaux sont-ils toujours surclassés par les arbres de décision améliorés par gradient ?

Site Web officiel de TensorFlow

Page GitHub du classement TensorFlow v0.4.0
https://github.com/tensorflow/ranking/releases/tag/v0.4.0

Exemple Keras keras_dnn_tfrecord.py



Laisser un commentaire