Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Vertiv et NVIDIA collaborent pour développer une architecture complète d’alimentation et de refroidissement pour la plateforme GB200 NVL72

22 octobre 2024 à 11:00

Vertiv, une société mondiale spécialisée dans les solutions d’infrastructure critique et de services pour les centres de données, les réseaux de communication et d’autres environnements critiques, annonce le lancement d’une architecture de référence complète de 7 MW de la plateforme NVIDIA GB200 NVL72, développée conjointement avec NVIDIA, qui permettra aux clients de transformer les architectures de data centers classiques en usines d’IA capables d’alimenter toutes les applications d’IA de leur entreprise.

La plateforme de calcul accéléré de NVIDIA, GB200 NVL72, est un système multi-nœuds, refroidi par liquide, qui connecte 36 CPU Grace et 72 GPU Blackwell par rack. Avec un total de 64 racks, elle totalise donc 4 608 GPU, ce qui lui permet de gérer des charges de travail d’IA très exigeantes.

La nouvelle architecture de référence, qui peut atteindre jusqu’à 7 MW, fait partie du portefeuille Vertiv 360AI de conceptions de références pour les centres de données existants et nouveaux, conçues pour guider les clients vers des solutions intégrées d’alimentation et de refroidissement, adaptées aux applications d’IA et au HPC. Elle permettra de soutenir les architectures NVIDIA Blackwell, facilitant ainsi une transition des datacenters traditionnels vers des installations optimisées pour l’IA.

Conception de l’infrastructure

L’ensemble de l’infrastructure d’alimentation critique de l’architecture est conçu pour réduire considérablement l’alimentation bloquée en alignant les clusters d’IA sur les blocs de capacité du datacenter. L’infrastructure hybride de refroidissement par liquide et par air tire parti de l’impact interdépendant des deux approches pour gérer efficacement l’évacuation de la chaleur à haute densité.

L’architecture de référence accélérera le déploiement de la plateforme NVIDIA GB200 NVL72, intégrant des systèmes permettant de gérer jusqu’à 132 kW par rack. Elle adopte une approche globale de la conception de l’infrastructure afin d’optimiser la vitesse de déploiement, les performances, la résilience, le coût, l’efficacité énergétique et l’évolutivité des datacenters de génération actuelle et future.

Principales caractéristiques

Parmi les éléments clés de cette nouvelle architecture figurent :

  • Déploiement accéléré : L’utilisation de modules préconfigurés permet une installation plus rapide, potentiellement jusqu’à 50 % de temps en moins par rapport aux constructions traditionnelles ;
  • Optimisation de l’espace : La gestion de l’alimentation a été pensée pour réduire l’espace occupé, utilisant environ 40 % moins de surface qu’avec des solutions classiques ;
  • Efficacité énergétique : Les technologies de refroidissement intégrées, qui allient méthodes par air et liquide, permettent d’abaisser les coûts de refroidissement annuels d’environ 20 % ;
  • Support pour les charges de travail dynamiques : La conception inclut des systèmes permettant de gérer efficacement les charges GPU, en tenant compte de la nature fluctuante des applications d’IA.

Giordano Albertazzi, PDG de Vertiv, commente :

“En tant que leader des infrastructures d’alimentation et de refroidissement critiques, Vertiv est particulièrement bien placé pour prendre en charge la plate-forme NVIDIA GB200 NVL72. Notre portefeuille de solutions d’alimentation et de refroidissement hautes performances, combiné à notre échelle mondiale, permettra aux clients de déployer des centres de données d’IA plus rapidement, plus efficacement et avec une plus grande flexibilité pour répondre à la densification, aux charges de travail dynamiques, aux mises à niveau et permettre des conceptions prêtes pour l’avenir”.

Cette collaboration entre Vertiv et NVIDIA souligne un changement significatif dans la manière dont les entreprises abordent l’infrastructure des datacenters. Avec la nécessité croissante de répondre aux exigences des applications d’IA, les solutions développées par ces deux entreprises pourraient devenir des références pour d’autres acteurs du secteur.

Jensen Huang, fondateur et PDG de NVIDIA, conclut :

“Les nouveaux centres de données sont conçus pour le calcul accéléré et l’IA générative avec des architectures nettement plus complexes que celles de l’informatique à usage général. Grâce aux technologies de refroidissement et d’alimentation de classe mondiale de Vertiv, NVIDIA peut concrétiser sa vision de réinventer l’informatique et de construire une nouvelle industrie d’usines d’IA qui produisent de l’intelligence numérique au profit de toutes les entreprises et de tous les secteurs”. 

Image121
  • ✇ActuIA
  • GTC 2024 : NVIDIA dévoile le GPU Blackwell B200 et la super puce GB200
    Les puces de NVIDIA, notamment le GPU H100, sont les plus utilisées que ce soit pour les datacenters, les supercalculateurs, l’entraînement ou l’inférence des LLM. Lors de la GTC 2024, qui a réuni Jensen Huang, fondateur et PDG de NVIDIA, a présenté des GPU qui devraient apporter encore plus de puissance de calcul : la puce “la plus puissante au monde pour l’IA” Blackwell B200 basée sur une nouvelle architecture et la super puce GB200, qui combinera les architectures Grace et Blackwell. Nommée e

GTC 2024 : NVIDIA dévoile le GPU Blackwell B200 et la super puce GB200

20 mars 2024 à 11:30

Les puces de NVIDIA, notamment le GPU H100, sont les plus utilisées que ce soit pour les datacenters, les supercalculateurs, l’entraînement ou l’inférence des LLM. Lors de la GTC 2024, qui a réuni Jensen Huang, fondateur et PDG de NVIDIA, a présenté des GPU qui devraient apporter encore plus de puissance de calcul : la puce “la plus puissante au monde pour l’IA” Blackwell B200 basée sur une nouvelle architecture et la super puce GB200, qui combinera les architectures Grace et Blackwell.

Nommée en l’honneur de David Harold Blackwell, mathématicien de l’Université de Californie à Berkeley spécialisé dans la théorie des jeux et les statistiques, et premier chercheur noir intronisé à l’Académie nationale des sciences, la nouvelle architecture succède à l’architecture NVIDIA Hopper, lancée il y a deux ans.

Elle comprend, selon NVIDIA, six technologies transformatrices pour l’informatique accélérée, qui contribueront à débloquer des percées dans le traitement des données, la simulation d’ingénierie, l’automatisation de la conception électronique, la conception de médicaments assistée par ordinateur, l’informatique quantique et l’IA générative, autant d’opportunités industrielles émergentes pour NVIDIA.

Outre les puces Blackwell, elle dispose notamment d’un moteur de transformateur de deuxième génération : alimentée par une nouvelle prise en charge de la mise à l’échelle des micro-tenseurs et les algorithmes avancés de gestion de la plage dynamique de NVIDIA intégrés aux frameworks NVIDIA TensorRT-LLM et NeMo Megatron, Blackwell prendra en charge le double de la taille des calculs et des modèles avec de nouvelles capacités d’inférence IA en virgule flottante 4 bits.

Un NVLink de cinquième génération permet d’accélérer les performances des modèles d’IA de plusieurs billions de paramètres grâce à un débit bidirectionnel de 1,8 To/s par GPU, garantissant une communication haut débit transparente entre jusqu’à 576 GPU pour les LLM les plus complexes.

Crédit Nvidia

Blackwell multiplie les performances de Hopper par 2,5 en FP8 pour l’entraînement, par puce et par 5 avec FP4 pour l’inférence.

Lors de son discours d’ouverture, Jensen Huang affirmait:

“Pendant trois décennies, nous avons poursuivi l’informatique accélérée, dans le but de permettre des percées transformatrices telles que l’apprentissage profond et l’IA. L’IA générative est la technologie déterminante de notre époque. Blackwell est le moteur de cette nouvelle révolution industrielle. En travaillant avec les entreprises les plus dynamiques au monde, nous réaliserons les promesses de l’IA pour tous les secteurs”.

Le GPU B200 et la superpuce GB200

Comptant deux cœurs de processeur, chacun comportant 104 milliards de transistors, les GPU d’architecture Blackwell sont fabriqués à l’aide d’un processus TSMC 4NP sur mesure avec des puces GPU limitées à deux réticules connectées par une liaison puce à puce de 10 To/seconde formant ainsi un seul GPU unifié. Tout comme les GH200 Grace Hopper, les B200 sont dotés de mémoire HBM3e, (192 pour ces derniers contre 282 Go pour le GH200),qui permet de gérer les charges de travail d’IA générative les plus complexes, allant des grands modèles linguistiques aux systèmes de recommandation et aux bases de données vectorielles. La bande passante mémoire est de 8 To/s.

Crédit NVIDIA : à gauche GB200, à droite le gpu H100

La superpuce GB200 connecte deux de ces GPU B200 à un processeur Grace, via une interconnexion puce-puce NVLink ultra-basse consommation de 900 Go/s, pour offrir des performances 30 fois supérieures pour les calculs d’inférence. Selon Jensen Huang, la formation d’un modèle de 1 800 milliards de paramètres aurait auparavant nécessité 8 000 GPU Hopper et 15 mégawatts de puissance, 2 000 GPU Blackwell permettent de le faire en ne consommant que quatre mégawatts.

Le GB200 serait également 25 fois plus performant en matière d’efficacité énergétique que le H 100.

Crédit NVIDIA Le GB200 NVL72

Le GB200 est un composant clé du NVIDIA GB200 NVL72, un système multi-nœuds, refroidi par liquide et à l’échelle du rack pour les charges de travail les plus gourmandes en ressources de calcul. Il combine 36 superpuces Grace Blackwell, dont 72 GPU Blackwell et 36 CPU Grace interconnectés par le NVLink de cinquième génération. Grâce à lui, l’inférence d’un LLM  de mille milliards de paramètres serait 30 fois plus rapide.

GTC 2024 NVIDIA dévoile le GPU Blackwell B200 et la super puce GB200
❌
❌