Un cadre de Dell révèle que Nvidia prépare une GPU de 1 000 watts, suggérant des avancées en refroidissement liquide à grande échelle
qui pourraient défier les méthodes traditionnelles
Le directeur de l'exploitation de Dell Technologies, Jeff Clarke, a révélé que Nvidia prépare une nouvelle GPU, la B100, qui consommera 1 000 watts, soit 42 % de plus que son prédécesseur. Clarke a assuré que malgré cette puissance élevée, un refroidissement liquide ne sera pas nécessaire pour gérer la B100. Il a également mentionné un potentiel accélérateur B200 avec une consommation de 1 000 watts chacun, suggérant des avancées dans le refroidissement liquide à grande échelle. Bien que la référence à la B200 ne soit pas claire, certains spéculent qu'il pourrait s'agir de la Superchip GB200. Nvidia n'a pas commenté, mais on s'attend à en savoir plus lors de la prochaine conférence GTC.
Le lancement du B100 est prévu pour la fin de 2024, après le déploiement des GPU H200 au premier semestre. Malgré les nouvelles annonces, les analystes avertissent que l'offre de GPU de Nvidia pourrait rester limitée en 2024. En plus des accélérateurs, la feuille de route de Nvidia prévoit des améliorations dans les cartes d'interface réseau et des commutateurs offrant une bande passante de 800 Gb/s d'ici la fin de l'année.
Le secteur des centres de données est aujourd'hui très différent de ce qu'il était il y a dix ans. Un certain nombre de facteurs sont apparus au cours des dernières années : plus récemment, la prolifération de l'IA à grande échelle, mais aussi le ralentissement de la loi de Moore et la question lancinante de la durabilité.
L'Uptime Institute s'attend à ce que la confluence de ces défis commence à entraîner des changements matériels dans l'ensemble du secteur en 2024, alors que les opérateurs sont aux prises avec des pressions en cascade liées à l'alimentation, au refroidissement, à la gestion, à la densification et à la réglementation. Les douze derniers mois ont vu le déploiement de grands clusters GPU par les principaux fournisseurs de cloud et hyperscalers. Uptime estime que Nvidia a livré environ 600 000 H100 rien qu'en 2023. (D'ici la fin de l'année 2024, le fabricant de puces devrait livrer entre 1,5 million et 2 millions de puces supplémentaires.
Qu’est-ce que le refroidissement liquide et comment fonctionne-t-il ?
Le refroidissement liquide ou refroidissement par eau est l’un des meilleurs moyens de refroidir un PC en raison de la forte conductivité thermique de l’eau. Un système de refroidissement liquide se compose de blocs d’eau, d’une pompe, d’un radiateur, de tuyaux et éventuellement d’un réservoir. La pompe pousse le liquide de refroidissement vers et depuis un radiateur à travers le bloc d’eau, qui est fixé à l’unité centrale. La chaleur est alors transférée du composant au liquide de refroidissement qui est ensuite pompé en continu dans tout le système.
Lorsqu’il s’agit de refroidissement à l’eau, il existe deux options principales : le refroidissement liquide tout-en-un et le refroidissement liquide personnalisé. Les refroidisseurs tout-en-un sont livrés en une seule unité. Pas besoin d’assembler les pièces soi-même. Avec le refroidissement liquide personnalisé, tu peux personnaliser chaque aspect de ton système de refroidissement pour obtenir les meilleures performances et le meilleur aspect visuel. Le refroidissement liquide tout-en-un et le refroidissement liquide personnalisé ont chacun leurs avantages et leurs inconvénients, il est donc important de bien faire la distinction entre les deux. Bien que le refroidissement liquide puisse être 2 à 10 fois plus efficace que le refroidissement par air, il présente quand même quelques inconvénients :
- Coût : le refroidissement liquide personnalisé te coûtera beaucoup plus cher qu’un système de refroidissement par air standard. Ce coût est directement lié à la complexité de son fonctionnement et à ses meilleures performances. Néanmoins, le prix du refroidissement tout-en-un reste assez proche de celui du refroidissement par air ;
- Installation : le refroidissement liquide personnalisé peut être laborieux à mettre en place, surtout pour les constructeurs de PC débutants. Un refroidisseur liquide tout-en-un est plus facile à installer et devrait te prendre environ 30 minutes. Cependant, dans un cas comme dans l’autre, il peut aussi être assez déconcertant de voir de l’eau couler dans ton système ;
- Entretien : les systèmes de refroidissement liquide personnalisés nécessitent plus d’entretien que le refroidissement par air, car tu dois maintenir des niveaux de liquide corrects et t’assurer que les composants sont propres et fonctionnels. De plus, si l’une des pièces d’un système de refroidissement liquide personnalisé tombe en panne, les conséquences peuvent être catastrophiques pour ton ordinateur. Le tout-en-un, quant à lui, nécessite moins d’entretien. Et comme tout est assemblé, le risque de fuite du système est réduit.
GPU NVIDIA H100 Tensor Core et NVIDIA TensorRT-LLM
NVIDIA a publié le logiciel open source NVIDIA TensorRT-LLM, qui inclut les dernières optimisations du noyau pour l'architecture NVIDIA Hopper au cœur de la GPU NVIDIA H100 Tensor Core. Ces optimisations permettent à des modèles comme Llama 2 70B de s'exécuter en utilisant des opérations FP8 accélérées sur les GPU H100 tout en maintenant la précision de l'inférence.
Lors d'un récent événement de lancement, AMD a parlé des performances d'inférence de la GPU H100 par rapport à celles de sa puce MI300X. Les résultats communiqués n'utilisaient pas de logiciel optimisé, et le H100, s'il est évalué correctement, est deux fois plus rapide.
Le DGX H100 peut traiter une seule inférence en 1,7 seconde en utilisant une taille de lot de un - en d'autres termes, une demande d'inférence à la fois. Une taille de lot de un permet d'obtenir le temps de réponse le plus rapide possible pour servir un modèle. Pour optimiser à la fois le temps de réponse et le débit du centre de données, les services basés sur le cloud définissent un temps de réponse fixe pour un service particulier. Cela leur permet de combiner plusieurs demandes d'inférence en lots plus importants et d'augmenter le nombre total d'inférences par seconde du serveur. Les repères standard de l'industrie tels que MLPerf mesurent également les performances à l'aide de ce temps de réponse fixe.
De petits compromis dans le temps de réponse peuvent produire des facteurs x dans le nombre de requêtes d'inférence qu'un serveur peut traiter en temps réel. En utilisant un budget de temps de réponse fixe de 2,5 secondes, un serveur DGX H100 à 8 GPU peut traiter plus de cinq inférences Llama 2 70B par seconde, contre moins d'une par seconde avec le batch one.
Annoncé fin 2023, le H200 est un perfectionnement du H100 avec jusqu'à 141 Go de mémoire HBM3e pour une bande passante de 4,8 To/s. Nvidia affirme que l'appareil peut doubler les performances des grands modèles de langage, y compris Llama 70B, grâce aux piles de mémoire HBM3e de la puce. Nvidia affirme que l'appareil peut doubler les performances des grands modèles de langage, y compris le Llama 70B, grâce aux piles de mémoire HBM3e de la puce.
« Nous sommes ravis de ce qui se passe avec le H200 et de l'amélioration de ses performances », a déclaré Clarke aux investisseurs lors de la conférence sur les résultats de Dell, avant d'ajouter qu'il ressentait la même émotion à propos du prochain accélérateur B100 de Nvidia et d'un autre accélérateur qu'il a appelé B200. Aucune puce de ce nom n'apparaît sur la feuille de route que Nvidia a partagée avec les investisseurs à l'automne dernier. Cependant, certains analystes ont pensé que Clarke fait en réalité référence à la Superchip GB200 qui, comme la GH200, devrait combiner le processeur Grace de Nvidia avec sa GPU B100.
Sur la base des connaissances sur le processeur Grace dans la GH200, et en supposant qu'il n'y ait pas de changements majeurs dans la consommation d'énergie, cela placerait la puissance thermique de conception (TDP) de la GB200 aux alentours de 1 300 watts, soit 30 % de plus que son prédécesseur. Clarke a suggéré que la prochaine puce serait l'occasion de présenter l'expertise de Dell dans d'autres formes de refroidissement à grande échelle. Il a évoqué « la chimie des fluides et les performances, notre travail sur les interconnexions, la télémétrie et la gestion de l'énergie » comme autant d'alternatives au refroidissement liquide direct, même pour les puces très denses.
NVIDIA a dévoilé la nouvelle plateforme Grace Hopper Superchip GH200 pour l'ère du calcul accéléré et de l'IA générative
Le premier processeur HBM3e au monde offre une mémoire et une bande passante révolutionnaires, la possibilité de connecter plusieurs GPU pour des performances exceptionnelles et une conception de serveur facilement évolutive. NVIDIA annonce la plate-forme NVIDIA GH200 Grace Hoppe de nouvelle génération - basée sur une nouvelle Grace Hopper Superchip avec le premier processeur HBM3e au monde - conçue pour l'ère de l'informatique accélérée et de l'IA générative.
Créée pour gérer les charges de travail d'IA générative les plus complexes au monde, couvrant les grands modèles de langage, les systèmes de recommandation et les bases de données vectorielles, la nouvelle plateforme sera disponible dans une large gamme de configurations. La configuration double - qui offre jusqu'à 3,5 fois plus de capacité de mémoire et 3 fois plus de bande passante que l'offre de la génération actuelle - comprend un seul serveur avec 144 cœurs Arm Neoverse, huit pétaflops de performance IA et 282 Go de la dernière technologie de mémoire HBM3e.
« Pour répondre à la demande croissante d'IA générative, les centres de données ont besoin de plates-formes informatiques accélérées avec des besoins spécialisés », a déclaré Jensen Huang, fondateur et CEO de NVIDIA. « La nouvelle plateforme Grace Hopper Superchip GH200 répond à ces besoins avec une technologie de mémoire et une bande passante exceptionnelles pour améliorer le débit, la possibilité de connecter des GPU pour agréger les performances sans compromis, et une conception de serveur qui peut être facilement déployée dans l'ensemble du centre de données. »
La nouvelle plateforme utilise le Superchip Grace Hopper, qui peut être connecté à d'autres Superchips par NVIDIA NVLink, ce qui leur permet de travailler ensemble pour déployer les modèles géants utilisés pour l'IA générative. Cette technologie cohérente à grande vitesse donne à la GPU un accès complet à la mémoire de la CPU, fournissant une mémoire rapide combinée de 1,2 To lorsqu'elle est en configuration double.
La mémoire HBM3e, qui est 50 % plus rapide que la mémoire HBM3 actuelle, offre une bande passante combinée totale de 10 To/s, ce qui permet à la nouvelle plateforme d'exécuter des modèles 3,5 fois plus grands que la version précédente, tout en améliorant les performances grâce à une bande passante mémoire trois fois plus rapide.
Le H100 de Nvidia et le H200 imminent ont une puissance nominale de plus de 700 watts. Mais il ne s'agit que d'une seule puce. Ces machines sont généralement regroupées dans des systèmes de quatre ou huit, avec des puissances thermiques à deux chiffres. Pratiquement tous les grands opérateurs de centres de données basé sur le cloud et à grande échelle se sont engagés à atteindre un objectif de développement durable de type « net zéro » au cours des dernières années. Pour beaucoup d'entre eux, comme Microsoft et Google, la première grande borne kilométrique n'est qu'à quelques années de distance.
Défis et opportunités pour les centres de données face aux pressions réglementaires et aux contraintes énergétiques
Uptime prévoit des temps difficiles pour les exploitants de centres de données s'ils veulent réellement tenir leurs engagements. Le fait que les énergies renouvelables ne soient pas toujours disponibles là où les entreprises souhaitent déployer des centres de données ne facilite pas les choses. Comme si cela ne suffisait pas, les gouvernements du monde entier ont fait pression pour plus de transparence sur la consommation d'énergie et l'empreinte carbone associées à ces centres de données.
Des directives telles que la directive de l'Union européenne sur les rapports de durabilité des entreprises et la loi californienne sur la responsabilité des entreprises en matière de climat, adoptée en septembre dernier, exigeront bientôt des entreprises qu'elles rendent compte de leurs émissions de carbone et des risques liés au climat. Selon Uptime, la Security and Exchange Commission (SEC) en a même pris note et exigera également des grandes entreprises cotées en bourse qu'elles divulguent certaines données sur les émissions dans le cadre de leurs rapports trimestriels.
La plus exigeante de ces exigences réglementaires est sans aucun doute la directive de l'Union européenne sur l'efficacité énergétique, publiée à l'automne dernier. Ce document définit les exigences en matière de rapports spécifiques aux centres de données et aux autres opérateurs informatiques et de réseaux. Pour être clair, l'objectif de la directive est d'obtenir des données sur les schémas d'utilisation et ne va pas jusqu'à réglementer l'exploitation des centres de données. Même si ces rapports devraient s'avérer instructifs, Uptime signale que moins de la moitié des exploitants de centres de données interrogés déclarent suivre de près des facteurs tels que les émissions de carbone.
Uptime s'attend à ce que la vague d'infrastructures d'IA ait un impact limité sur la plupart des opérateurs, en grande partie à cause des contraintes d'approvisionnement pour la fabrication des puces et du fait que relativement peu d'entreprises disposent des ressources nécessaires pour les déployer en grandes quantités.
Les centres de données qui déploient ces systèmes à grande échelle seront confrontés à des problèmes de gestion de l'énergie et de la chaleur. Heureusement, il existe plusieurs façons de résoudre ce problème particulier. L'une des plus simples, car elle nécessite le moins de changements dans l'infrastructure, consiste à répartir les systèmes sur une plus grande surface.
Par exemple, si l'infrastructure existante d'un établissement peut supporter des charges électriques et thermiques de 25 kilowatts par rack, il peut déployer des nœuds de type DGX sur deux fois plus de racks. Évidemment, cela signifie qu'il y aura beaucoup d'armoires vides, mais cela peut être une option viable pour certaines charges de travail, à condition que l'espace ne soit pas compté.
Le refroidissement liquide direct permet de réaliser des gains
La deuxième option implique une transition vers le refroidissement par liquide, en particulier le refroidissement direct par liquide (DLC). Les analystes d'Uptime prévoient que le DLC continuera à bénéficier d'un déploiement plus large en 2024, les opérateurs étant confrontés à des puces plus chaudes, à des systèmes plus denses et à une pression accrue en matière de développement durable, mais ce dernier est susceptible de passer après les performances et la commodité d'installation à court terme.
Le DLC est généralement plus efficace que le refroidissement par air, car le liquide est un meilleur conducteur d'énergie thermique et la technologie élimine en grande partie le besoin de ventilateurs de châssis. On nous dit que cela peut représenter jusqu'à 20 % de réduction de la consommation d'énergie du système, bien qu'Uptime note qu'il est particulièrement difficile de quantifier cette réduction car elle est mélangée à la consommation globale de l'informatique.
Si la DLC permet de réduire la consommation d'énergie, ce n'est pas toujours aussi simple. Uptime explique que de nombreuses installations peuvent choisir de refroidir leurs fluides d'alimentation à des températures plus basses afin de réduire la pression nécessaire pour refroidir efficacement l'infrastructure. D'après ce que nous comprenons, cela réduit la charge sur l'infrastructure de l'installation et présente des avantages pour la durée de vie des technologies de l'information, mais n'est pas aussi efficace que l'utilisation de fluides plus chauds à des pressions plus élevées, puisqu'il faut de l'énergie pour refroidir le fluide en premier lieu.
L'eau réfrigérée DLC présente des avantages en termes de performances. Une eau de source plus froide se traduit par des températures de fonctionnement plus basses pour les processeurs et les accélérateurs, ce qui leur permet de fonctionner à des fréquences plus élevées - et à des puissances plus importantes - pendant plus longtemps.
L'annonce du directeur de l'exploitation de Dell Technologies, Jeff Clarke, concernant la nouvelle GPU de Nvidia, la B100, suscite à la fois l'excitation et l'interrogation. La consommation de 1 000 watts représente une augmentation significative de 42 % par rapport à son prédécesseur, la H100, ce qui soulève des questions sur l'efficacité énergétique et les défis de refroidissement associés à une telle puissance.
L'affirmation selon laquelle aucun refroidissement liquide ne sera nécessaire pour gérer le B100 est intrigante mais nécessite une confirmation pratique. Les technologies de refroidissement traditionnelles pourraient être mises à l'épreuve, et il serait intéressant de voir comment Nvidia compte résoudre les problèmes thermiques tout en maintenant les performances de la GPU.
La mention du potentiel accélérateur B200 avec une consommation de 1 000 watts chacun soulève des questions sur la direction que prend Nvidia en matière de conception de GPU. Les spéculations autour de la Superchip GB200 sont compréhensibles, mais le manque de clarté dans la nomenclature laisse place à l'incertitude. Le fait que Nvidia n'ait pas commenté l'annonce suscite la curiosité, mais l'espoir réside dans la promesse d'en apprendre davantage lors de la prochaine conférence GTC. Il est crucial que la société clarifie les détails entourant le B100, le B200 et les avancées potentielles dans le domaine du refroidissement liquide.
L'annonce soulève des questions passionnantes sur les avancées technologiques de Nvidia, mais la communauté attend des détails concrets et des confirmations pratiques pour évaluer pleinement l'impact de ces nouveaux développements sur le paysage des GPU. La prochaine conférence GTC sera un moment clé pour éclaircir ces incertitudes et déterminer la pertinence et la faisabilité réelles des avancées annoncées.
Source : Dell's earnings call
Et vous ?
Quel est votre avis sur le sujet ?
En quoi les avancées en matière de refroidissement liquide à grande échelle pourraient-elles révolutionner le paysage informatique, et quelles sont les limites et les défis potentiels associés à cette technologie ?
Voir aussi :
NVIDIA a gagné 5 milliards de dollars pendant une pénurie de GPU et s'attend à le faire à nouveau au premier trimestre, alors que ses perspectives sur la disponibilité des GPU restent inchangées
Les monstrueux processeurs Threadripper 7000 d'AMD visent à dominer les ordinateurs de bureau, avec jusqu'à 96 cœurs et 192 threads
Microsoft immerge désormais ses serveurs dans des bains liquides pour améliorer leur performance et leur efficacité, après le succès du projet Natick qui déployait des serveurs autonomes dans la mer
Partager