Le nouveau monde virtuel dynamique de DeepMind forme une IA flexible avec un jeu sans fin


L’année dernière, les chercheurs de DeepMind ont écrit que les futurs développeurs d’IA pourraient passer moins de temps à programmer des algorithmes et plus de temps à générer des mondes virtuels riches dans lesquels les former.

Dans un nouvel article publié cette semaine sur le serveur de préimpression arXiv, il semblerait qu’ils prennent la dernière partie de cette prédiction très au sérieux.

Les auteurs de l’article ont déclaré avoir créé un terrain de jeu virtuel sans fin pour l’IA. Le monde, appelé XLand, est un jeu vidéo dynamique géré par un seigneur de l’IA et peuplé d’algorithmes qui doivent acquérir les compétences nécessaires pour le naviguer.

L’IA de gestion du jeu garde un œil sur ce que les algorithmes de jeu apprennent et génère automatiquement de nouveaux mondes, jeux et tâches pour les confronter en permanence à de nouvelles expériences.

L’équipe a déclaré que certains algorithmes vétérans étaient confrontés à 3,4 millions de tâches uniques tout en jouant à environ 700 000 jeux dans 4 000 mondes XLand. Mais plus particulièrement, ils ont développé un ensemble de compétences générales qui ne sont liées à aucun jeu, mais utiles dans tous.

Ces compétences comprenaient l’expérimentation, l’utilisation d’outils simples et la coopération avec d’autres joueurs. Compétences générales en main, les algorithmes se sont bien comportés lorsqu’ils ont été confrontés à de nouveaux jeux, y compris des jeux plus complexes, tels que la capture du drapeau, le cache-cache et le tag.

Selon les auteurs, il s’agit d’une étape vers la résolution d’un défi majeur dans l’apprentissage en profondeur. La plupart des algorithmes entraînés pour accomplir une tâche spécifique, comme, dans le cas de DeepMind, gagner à des jeux tels que Go ou Starcraft, sont des savants. Ils sont surhumains pour la tâche qu’ils connaissent et inutiles pour le reste. Ils peuvent vaincre des champions du monde au Go ou aux échecs, mais doivent être recyclés à partir de zéro pour faire autre chose.

En présentant des algorithmes d’apprentissage par renforcement en profondeur avec un monde ouvert et en constante évolution, DeepMind dit que leurs algorithmes commencent à démontrer un apprentissage « zéro » dans de nouvelles tâches jamais vues auparavant. C’est-à-dire qu’ils n’ont pas besoin de se recycler pour effectuer de nouvelles tâches à un niveau décent, sans être vus.

Un joueur d’IA expérimente en bousculant des trucs, pour finalement trouver un outil utile : une rampe menant à son objectif. Crédit d’image : DeepMind

Il s’agit d’un pas vers des algorithmes plus généralement capables d’interagir, de naviguer et de résoudre des problèmes dans le monde réel, également infiniment nouveau.

Mais XLand n’est pas la première idée de généralisation de la communauté de l’IA ces derniers temps.

Le GPT-3 d’OpenAI peut générer des passages écrits étranges – son objectif principal – mais il peut également faire d’autres choses, comme de l’arithmétique et de la programmation simples. Et il peut être affiné avec seulement quelques exemples. (OpenAI dit que GPT-3 démontre un apprentissage « peu de tirs ».)

Et l’année dernière, DeepMind a lui-même développé un algorithme qui a écrit un élément clé de son propre code appelé la fonction de valeur, qui guide ses actions en projetant des récompenses. Étonnamment, après avoir été formé dans des « mondes de jouets » très simples, l’algorithme a continué à jouer à 14 jeux Atari qu’il n’avait jamais rencontrés à un niveau surhumain, fonctionnant parfois à égalité avec l’IA conçue par l’homme.

Notamment, plus l’algorithme s’est entraîné sur des « mondes de jouets », mieux il pourrait généraliser. À l’époque, l’équipe avait supposé qu’avec suffisamment de mondes d’entraînement bien conçus, l’approche pourrait produire un algorithme d’apprentissage par renforcement à usage général.

L’apprentissage ouvert de Xland nous pousse plus loin dans cette voie. Jusqu’où va la route, cependant, est une question ouverte et vivement débattue.

Ici, les algorithmes jouent à des jeux plutôt simples dans un monde relativement simple (bien qu’intelligemment réglé pour garder les choses fraîches). On ne sait pas à quel point les algorithmes fonctionneraient sur des jeux plus complexes, encore moins dans le monde en général. Mais si XLand est une preuve de concept, leurs découvertes peuvent suggérer que des mondes de plus en plus sophistiqués donneront naissance à des algorithmes de plus en plus sophistiqués.

En effet, des chercheurs de DeepMind ont récemment misé sur le terrain, arguant (du moins philosophiquement) que l’apprentissage par renforcement – la méthode derrière les succès les plus spectaculaires de l’organisation – est tout ce dont nous avons besoin pour accéder à l’intelligence artificielle générale. OpenAI et d’autres, quant à eux, recherchent un apprentissage en profondeur non supervisé à grande échelle pour le traitement avancé du langage naturel et la génération d’images.

Tout le monde n’est pas d’accord. Certains pensent que l’apprentissage en profondeur se heurtera à un mur et devra s’associer à d’autres approches, comme l’IA symbolique. Mais trois des pionniers du domaine, Geoffrey Hinton, Yoshua Bengio et Yann LeCun, ont récemment co-écrit un article affirmant le contraire. Ils reconnaissent les lacunes de l’apprentissage en profondeur, notamment son manque de flexibilité et son inefficacité, mais pensent qu’il surmontera ses défis sans recourir à d’autres disciplines.

Mis à part les arguments philosophiques, l’IA étroite a déjà un impact important.

DeepMind l’a montré récemment avec son algorithme AlphaFold, qui prédit les formes des protéines. L’organisation vient de publier les formes prévues de 350 000 protéines, dont presque toutes les protéines du corps humain. Ils ont dit que 100 millions de plus sont en route.

Pour mettre cela en perspective, les scientifiques ont élaboré la structure de quelque 180 000 protéines au cours des décennies. La baisse de protéines de DeepMind a presque doublé le nombre d’un seul coup. La bibliothèque de protéines nouvellement créée n’a pas été rigoureusement confirmée par les scientifiques, mais ce sera un outil précieux pour eux. Au lieu de partir d’une ardoise vierge, ils auront un modèle (peut-être beaucoup plus) à partir duquel travailler.

Quoi qu’il advienne de la quête de l’intelligence artificielle générale, il semble qu’il reste encore beaucoup de place pour ses précurseurs plus professionnels.

Crédit d’image : DeepMind

Laisser un commentaire