Ils ont montré l'intérieur du supercalculateur d'intelligence artificielle le plus puissant (vidéo) ᐉ Actualités de Fakti.bg – Technologies

Beaumont-Lefebvre octobre 30, 2024

0 28 Temps de lecture 1 minute

Ils ont montré l'intérieur du supercalculateur d'intelligence artificielle le plus puissant (vidéo) ᐉ Actualités de Fakti.bg – Technologies

Le nouveau projet très coûteux d'Elon Musk, le supercalculateur xAI Colossus, a ouvert ses portes au public pour la première fois. Les journalistes du fournisseur « ServeTheHome » ont été admis dans l'établissement. Ils ont parlé en détail de la famille de serveurs Supermicro, dont l'assemblage a pris 122 jours et qui fonctionne depuis environ deux mois.

Les serveurs GPU sont construits sur la plateforme Nvidia HGX H100. Chacun comprend huit accélérateurs Nvidia H100 et un système de refroidissement liquide global Supermicro 4U avec des composants chauds pour chaque GPU individuel. Les serveurs sont installés dans des racks de huit, ce qui donne 64 accélérateurs par rack. Au bas de chaque rack se trouve un autre disque Supermicro 4U avec un système de pompe de secours et un système de surveillance du rack.

Les racks sont regroupés en groupes de huit, fournissant 512 GPU par groupe. Chaque serveur dispose de quatre alimentations redondantes ; Au dos des racks, vous pouvez voir des alimentations triphasées et des commutateurs Ethernet ; Il existe également des têtes de la taille d'un rack qui gèrent le refroidissement liquide. Le cluster Colossus contient plus de 1 500 racks, soit environ 200 baies. Le PDG de Nvidia, Jensen Huang, a déclaré plus tôt que les accélérateurs avaient été installés sur ces matrices en seulement trois semaines.

En raison des exigences de performances élevées d'un super cluster d'IA qui entraîne constamment des modèles, les ingénieurs XAI ont dû faire des efforts en termes de mise en réseau. Chaque carte graphique est équipée d'un contrôleur réseau 400GbE dédié avec un adaptateur réseau 400GbE supplémentaire pour chaque serveur. Cela signifie que chaque serveur Nvidia HGX H100 dispose de 3,6 Tbit/s d'Ethernet. Oui, l'ensemble du cluster fonctionne sur Ethernet, et non sur InfiniBand ou d'autres interfaces exotiques standard dans les superordinateurs.

READ Dacia Spring: la première voiture électrique à bas prix enfin présentée

Le supercalculateur nécessite non seulement des GPU, mais également de la mémoire et des CPU pour entraîner les modèles d'IA, y compris Grok 3, mais xAI n'a révélé que partiellement des informations à ce sujet. Des vidéos censurées montrent que les serveurs fonctionnant sur des puces x86 dans des boîtiers Supermicro sont à blâmer : ils sont également équipés d'un refroidissement liquide et sont conçus pour servir soit de stockage de données, soit de charges de travail destinées aux processeurs centraux.

Des batteries Tesla Megapack ont également été installées sur place. Lorsque l'ensemble est en marche, des changements brusques de consommation électrique sont possibles, c'est pourquoi ces batteries, d'une capacité chacune de 3,9 MWh, doivent être installées entre le réseau électrique et le supercalculateur comme stockage d'énergie. Regardez-en plus dans la vidéo.