La technologie d’auto-création prend une nouvelle forme


IA

Réseaux de neurones profondsun type d’intelligence artificielle a commencé à surpasser les algorithmes standards il y a 10 ans.

La majorité de l’intelligence artificielle (IA) est un jeu de chiffres. Les réseaux de neurones profonds, un type d’IA qui apprend à reconnaître les modèles dans les données, ont commencé à surpasser les algorithmes standard il y a 10 ans, car nous disposions finalement de suffisamment de données et de capacités de traitement pour les utiliser pleinement.

Les réseaux de neurones d’aujourd’hui sont encore plus gourmands en données et en énergie. Leur formation nécessite d’affiner les valeurs de millions, voire de milliards de paramètres qui définissent ces réseaux et représentent la force des interconnexions entre les neurones artificiels. L’objectif est d’obtenir des paramètres quasi idéaux pour eux, un processus appelé optimisation, mais apprendre aux réseaux à y parvenir est difficile.

Devenir hyper

À l’heure actuelle, les approches les plus efficaces pour former et améliorer les réseaux de neurones convolutifs sont des variations d’un processus connu sous le nom de descente de gradient stochastique (SGD). La formation consiste à réduire les erreurs du réseau sur un certain travail, comme la reconnaissance d’image. Une méthode SGD traite une grande quantité de données étiquetées afin de modifier les paramètres du réseau et de réduire les erreurs ou les pertes. La descente de gradient est le processus répété de descente de valeurs de fonction de perte élevées à une limite inférieure qui indique des valeurs de paramètres suffisamment bonnes (ou, dans certains cas, les meilleures possibles).

Cependant, cette stratégie n’est efficace que si vous avez un réseau à améliorer. Les ingénieurs doivent s’appuyer sur des intuitions et des règles empiriques pour construire le réseau neuronal initial, qui est souvent composé de nombreuses couches de neurones artificiels qui se connectent d’une prise à une production. Le nombre de couches de neurones, le nombre de neurones par couche et d’autres facteurs peuvent tous différer entre ces dispositions.

La descente de gradient guide un réseau à travers son « paysage de pertes », les valeurs les plus élevées représentant des erreurs ou des pertes plus importantes. Pour réduire la perte, l’algorithme cherche la limite inférieure globale.

Un hyper réseau graphique commence par n’importe quelle conception qui doit être optimisée (surnommée le candidat). Il tente ensuite de prévoir les meilleurs paramètres pour le candidat. L’équipe ajuste ensuite les paramètres d’un réseau neuronal réel aux valeurs projetées et le soumet à un test spécifique à la tâche. L’équipe de Ren a montré comment utiliser cette stratégie pour classer les architectures candidates et sélectionner la plus performante.

Formation du formateur

Knyazev et ses partenaires ont surnommé leur hyper réseau GHN-2, et il améliore deux caractéristiques clés de l’hyper réseau graphique de Ren et de ses partenaires.

Premièrement, ils se sont appuyés sur la technique de Ren consistant à représenter l’architecture d’un réseau de neurones sous forme d’arbre. Chaque nœud du graphique représente un sous-ensemble de neurones qui effectuent un type spécifique de calcul. Les bords du graphique montrent comment les informations se déplacent du nœud source au nœud de destination, de l’entrée à la sortie.

Le processus de formation de l’hyper réseau pour produire des prédictions pour de nouvelles conceptions candidates était la deuxième notion sur laquelle ils se sont appuyés. Cela nécessite l’inclusion de deux réseaux de neurones supplémentaires. Le premier permet des calculs sur le graphe de potentiel d’origine, entraînant des modifications des informations associées à chaque nœud, tandis que le second prend les nœuds modifiés en entrée et prévoit les paramètres des éléments de calcul du réseau de neurones proposé. Ces 2 réseaux ont chacun leur propre ensemble de conditions qui doivent être modifiées avant que l’hyper réseau puisse prévoir avec précision les paramètres du modèle.

Pour ce faire, vous aurez besoin de données d’entraînement, qui dans ce cas sont un échantillonnage aléatoire de diverses topologies de réseaux de neurones artificiels (ANN). Vous commencez avec un graphique pour chaque conception de l’échantillon, puis utilisez l’hyper-réseau arborescent pour prévoir les paramètres et établir l’ANN candidat avec les variables prédites. L’ANN est ensuite formé pour exécuter une tâche spécifique, comme la reconnaissance d’image. Vous calculez la perte de l’ANN puis, plutôt que d’ajuster les paramètres de l’ANN pour produire une meilleure prévision, vous modifiez les paramètres de l’hyper réseau qui a produit la prédiction en premier lieu. Cela aide l’hyper réseau à mieux fonctionner la prochaine fois. Itérer sur chaque image dans certains exemples d’entraînement séquence de données d’images et chaque ANN dans la sélection aléatoire des topologies, réduisant la perte à chaque étape jusqu’à ce qu’elle ne puisse plus fonctionner mieux. Vous finissez par vous retrouver avec un hyper réseau formé.

Parce que l’équipe de Ren n’a pas fourni son code source, l’équipe de Knyazev a adopté ces concepts et a créé sa propre application à partir de zéro. Knyazev et ses collègues l’ont ensuite amélioré. Pour commencer, ils ont identifié 15 types de nœuds différents qui peuvent être combinés et appariés pour construire pratiquement n’importe quel réseau neuronal profond moderne. Ils ont également fait un certain nombre d’avancées pour améliorer la précision des prédictions.

Partagez cet article

Faites le partage

Laisser un commentaire