La plus grande puce du monde débloque des modèles d’IA de la taille d’un cerveau avec Cerebras CS-2

24 août 2021 ThePressFree Aucun commentaire

Image 1 sur 2

Moteur d'échelle de plaquettes — (Crédit image: Cerebras)

Image 2 sur 2

Cerebras Systems a annoncé aujourd’hui avoir créé ce qu’elle présente comme la première solution d’IA à l’échelle du cerveau – un système unique pouvant prendre en charge 120 000 milliards de modèles d’IA de paramètres, dépassant les 100 000 milliards de synapses présentes dans le cerveau humain. En revanche, les clusters de GPU, l’appareil le plus couramment utilisé pour les charges de travail d’IA, dépassent généralement 1 000 milliards de paramètres. Cerebras peut accomplir cette première dans l’industrie avec un seul système de 850 000 cœurs, mais il peut également répartir les charges de travail sur jusqu’à 192 systèmes CS-2 avec 162 millions de cœurs optimisés pour l’IA pour débloquer encore plus de performances.

En tant que processeur d’IA le plus rapide connu de l’humanité, le Cerebras CS-2 est sans aucun doute l’un des dispositifs semi-conducteurs les plus uniques de la planète. Avec 46 225 mm2 de silicium, 2 600 milliards de transistors et 850 000 cœurs optimisés pour l’IA, tous regroupés sur un seul processeur 7 nm de la taille d’une plaquette, sa capacité de calcul est vraiment unique.

Cependant, chaque puce massive est intégrée dans un seul système CS-2, et même si elle dispose de beaucoup de mémoire, cela peut limiter la taille des modèles d’IA. La puce dispose de 40 Go de mémoire SRAM sur puce, mais l’ajout d’une nouvelle armoire externe avec de la mémoire supplémentaire a permis à l’entreprise d’exécuter des modèles d’IA plus grands à l’échelle du cerveau.

L’évolutivité est également un défi. Avec 20 pétaoctets de bande passante mémoire et 220 pétabits de bande passante de structure globale, la communication entre plusieurs puces est difficile à l’aide de techniques traditionnelles qui partagent la totalité de la charge de travail entre les processeurs. La puissance de calcul extrême du système rend également la mise à l’échelle des performances sur plusieurs systèmes particulièrement difficile, en particulier à la lumière des 15 kW de consommation d’énergie de la puce. Cela nécessite un refroidissement et une alimentation électrique personnalisés, ce qui rend presque impossible l’entassement de puces de la taille d’une plaquette dans un seul système.

La solution multi-nœuds de Cerebras adopte une approche différente : elle stocke les paramètres du modèle hors puce dans une armoire MemoryX tout en gardant le modèle sur puce. Cela permet non seulement à un seul système de calculer des modèles d’IA plus grands que jamais auparavant, mais cela permet également de lutter contre les problèmes typiques de latence et de bande passante mémoire qui restreignent souvent l’évolutivité avec des groupes de processeurs « plus petits », comme les GPU. De plus, Cerebras affirme que cette technique permet au système d’adapter les performances de manière quasi-linéaire sur jusqu’à 192 systèmes CS-2.

L’entreprise utilise son SwarmX Fabric pour faire évoluer les charges de travail sur les nœuds. Cette interconnexion se compose de la structure de communication optimisée pour l’IA de l’entreprise qui dispose d’Ethernet au niveau PHY mais exécute un protocole personnalisé pour transférer des données compressées et réduites à travers la structure. Chaque commutateur SwarmX prend en charge jusqu’à 32 systèmes Cerebras CS-2 et fournit près d’un térabit de bande passante par nœud.

Les commutateurs connectent les systèmes au boîtier MemoryX, doté d’une capacité de mémoire allant de 4 To à 2,4 Po. La mémoire est un mélange de flash et de DRAM, mais la société n’a pas partagé le rapport flash/DRAM. Ce boîtier unique peut stocker jusqu’à 120 000 milliards de poids et dispose également de « quelques » processeurs x86 pour exécuter le logiciel et le plan de données du système.

Image 1 sur 27

Image 2 sur 27

Image 3 sur 27

Image 4 sur 27

Image 5 sur 27

Image 6 sur 27

Image 7 sur 27

Image 8 sur 27

Image 9 sur 27

Image 10 sur 27

Image 11 sur 27

Image 12 sur 27

Image 13 sur 27

Image 14 sur 27

Image 15 sur 27

Image 16 sur 27

Image 17 sur 27

Image 18 sur 27

Image 19 sur 27

Image 20 sur 27

Image 21 sur 27

Image 22 sur 27

Image 23 sur 27

Image 24 sur 27

Image 25 sur 27

Image 26 sur 27

Image 27 sur 27

Naturellement, seuls quelques centaines de clients dans le monde pourraient utiliser de tels systèmes, mais Cerebras vise à simplifier l’exécution de modèles d’IA qui éclipsent facilement la taille de tout modèle existant. Beaucoup de ces clients incluent probablement des communautés militaires et du renseignement qui pourraient utiliser ces systèmes à diverses fins, y compris la modélisation nucléaire, mais Cerebras ne peut pas divulguer plusieurs de ses clients (pour des raisons évidentes). On sait que l’entreprise collabore avec le Laboratoire national d’Argonne, qui a commenté les nouveaux systèmes :

« Les dernières années nous ont montré que, pour les modèles de PNL, les informations évoluent directement avec les paramètres – plus il y a de paramètres, meilleurs sont les résultats », déclare Rick Stevens, directeur associé, Argonne National Laboratory. « Les inventions de Cerebras, qui fourniront une augmentation de 100 fois la capacité des paramètres, pourraient avoir le potentiel de transformer l’industrie. Pour la première fois, nous serons en mesure d’explorer des modèles de la taille d’un cerveau, ouvrant de vastes nouvelles voies de recherche et de compréhension. »

Laisser un commentaire Annuler la réponse