L'essor de l'IA donne naissance au « GPU-as-a-Service », avec des risques de dépendance aux géants du cloud

**Bruno** · 21/01/2025, 18h07

L'essor de l'IA donne naissance au « GPU-as-a-Service », une solution face à la pénurie de puissance mais non sans limites,
avec des risques de dépendance aux géants du cloud

Le secteur de l'IA connaît une demande croissante en puissance de calcul, notamment pour alimenter des modèles d'apprentissage profond toujours plus sophistiqués. Cependant, face à des besoins de plus en plus importants et à des coûts d'infrastructure élevés, de nombreuses startups se tournent vers des solutions comme le « GPU-as-a-Service » (GPUaaS). Ce modèle économique permet de mutualiser la capacité de calcul inutilisée, offrant ainsi aux entreprises l'opportunité de louer des ressources GPU sans avoir à investir dans une infrastructure coûteuse. Bien que les GPU ne soient pas les seules options pour le traitement des modèles d'IA, leur capacité à gérer des opérations parallèles les rend indispensables, surtout dans un contexte où la puissance de calcul nécessaire pour entraîner des modèles d'IA est devenue un obstacle majeur.

Les entreprises spécialisées dans le GPUaaS, comme Kinesis, Hyperbolic ou Runpod, exploitent des ressources sous-utilisées dans les serveurs du monde entier, permettant aux entreprises d'accéder à une capacité de calcul à la demande, tout en réduisant les coûts d'exploitation. Ce modèle présente également des avantages environnementaux, car il optimise l'utilisation des ressources existantes plutôt que de construire de nouveaux serveurs, contribuant ainsi à une réduction de la consommation d'énergie.

Nom : gpu.PNG
Affichages : 19910
Taille : 850,1 Ko

Des études ont montré que plus de la moitié des GPU existants ne sont pas utilisés à un moment donné. Qu'il s'agisse d'ordinateurs personnels ou de fermes de serveurs colossales, une grande partie de la capacité de traitement est sous-utilisée. Kinesis identifie les capacités de calcul inutilisées - tant pour les GPU que pour les CPU - dans les serveurs du monde entier et les compile en une source de calcul unique que les entreprises peuvent utiliser. Kinesis s'associe à des universités, des centres de données, des entreprises et des particuliers qui souhaitent vendre leur puissance de calcul inutilisée. Grâce à un logiciel spécial installé sur leurs serveurs, Kinesis détecte les unités de traitement inutilisées, les prépare et les propose à ses clients pour une utilisation temporaire.

Envoyé par ACM Digital Library

Le « Deep learning » joue un rôle essentiel dans de nombreuses applications logicielles intelligentes. Les développeurs d'entreprise soumettent et exécutent des tâches d'apprentissage profond sur des plateformes partagées et multi-locataires afin d'entraîner et de tester efficacement les modèles. Ces plateformes sont généralement équipées d'un grand nombre de processeurs graphiques (GPU) pour accélérer les calculs d'apprentissage profond.

Cependant, certains travaux présentent une utilisation plutôt faible des GPU alloués, ce qui entraîne un gaspillage substantiel des ressources et une réduction de la productivité du développement. Cet article présente une étude empirique complète sur la faible utilisation des GPU dans les travaux d'apprentissage profond, basée sur 400 travaux réels (avec une utilisation moyenne des GPU de 50 % ou moins) collectés à partir de la plateforme interne d'apprentissage profond de Microsoft. Nous avons découvert 706 problèmes de faible utilisation du GPU grâce à un examen méticuleux des métadonnées des tâches, des journaux d'exécution, des métriques d'exécution, des scripts et des programmes. En outre, nous identifions les causes profondes communes et proposons des correctifs correspondants.

Nos principales conclusions sont les suivantes :

la faible utilisation du GPU par les tâches d'apprentissage profond est due à des calculs GPU insuffisants et à des interruptions causées par des tâches non GPU ;
environ la moitié (46,03 %) des problèmes sont attribués aux opérations de données ;
45,18 % des problèmes sont liés aux modèles d'apprentissage profond et se manifestent pendant les phases d'apprentissage et d'évaluation des modèles ;
la plupart (84,99 %) des problèmes de faible utilisation du GPU peuvent être résolus avec un petit nombre de modifications du code/des scripts. Sur la base des résultats de l'étude, nous proposons des orientations de recherche potentielles.

Cependant, l'essor de ces services soulève des questions sur la rentabilité à long terme et sur la dépendance accrue des entreprises vis-à-vis de ces solutions externes. Bien que l'infrastructure GPUaaS semble offrir une réponse temporaire à la demande croissante en calcul pour l'IA, elle n'élimine pas les défis sous-jacents liés à la gestion de la puissance de calcul et à la durabilité de ces services. De plus, l'inévitabilité de l'optimisation des modèles d'IA, avec une gestion plus fine de l'énergie et des données, pourrait redéfinir le paysage de cette industrie en plein boom.

Le GPUaaS face aux défis environnementaux de l’IA

À travers le monde, les entreprises se battent pour répondre aux besoins en GPU nécessaires au fonctionnement de modèles d'IA de plus en plus complexes. Bien que les GPU ne soient pas l'unique option pour faire tourner un modèle d'IA, ils sont devenus la solution privilégiée en raison de leur capacité à exécuter plusieurs opérations simultanément, une caractéristique clé pour les modèles d'apprentissage profond. Cependant, toutes les startups en IA n'ont pas les ressources nécessaires pour investir dans la grande quantité de GPU requise pour soutenir des modèles de pointe. Pour certaines, externaliser cette tâche s'avère plus avantageux.

Alors que les géants technologiques comme Amazon ou Microsoft possèdent leur propre infrastructure cloud, de petites entreprises comme Kinesis ont mis au point des solutions permettant d'exploiter au mieux les espaces de calcul inutilisés. « Les entreprises ont besoin de puissance de calcul pour entraîner leurs modèles ou exécuter leurs applications, mais elles n'ont pas nécessairement besoin de posséder ou de gérer des serveurs », explique Bina Khimani, cofondatrice de Kinesis.

Des études ont révélé que plus de la moitié des GPU disponibles sont inutilisés à un moment donné. Que ce soit dans les ordinateurs personnels ou dans les fermes de serveurs, une grande partie de la capacité de traitement reste sous-exploitée. Kinesis identifie ces capacités de calcul inutilisées – tant pour les GPU que pour les CPU – dans les serveurs du monde entier et les agrège en une source unique de puissance de calcul que les entreprises peuvent utiliser.

Kinesis collabore avec des universités, des centres de données, des entreprises et des particuliers souhaitant vendre leur puissance de calcul inutilisée. Grâce à un logiciel spécialisé installé sur leurs serveurs, Kinesis détecte, prépare et met cette capacité à la disposition de ses clients pour une utilisation temporaire. « Nous avons développé une technologie permettant de regrouper la puissance de calcul fragmentée et inactive, puis de la rediriger vers une plateforme informatique sans serveur et autogérée », explique Khimani. Les clients peuvent même choisir l'emplacement de leurs GPU ou CPU.

À mesure que les modèles d'apprentissage deviennent plus avancés, ils nécessitent plus de puissance et une infrastructure capable de traiter les données de plus en plus rapidement. En d'autres termes, sans une quantité suffisante de GPU, les grands modèles d'IA ne peuvent ni fonctionner ni progresser. En octobre, Sam Altman, PDG d'OpenAI, a reconnu que l'entreprise ne lançait pas de nouveaux produits aussi fréquemment qu'elle l'aurait souhaité en raison des « nombreuses limitations » liées à la capacité de calcul. En octobre également, Amy Woods, directrice financière de Microsoft, a indiqué que la demande en IA « reste plus élevée » que la « capacité disponible ».

L'un des principaux avantages du GPUaaS réside dans son efficacité économique. En éliminant la nécessité d'acheter et de maintenir une infrastructure physique, il permet aux entreprises de se concentrer sur l'amélioration de leurs propres modèles d'IA sans avoir à investir dans des serveurs et des infrastructures informatiques. Les clients peuvent ainsi payer uniquement pour la quantité exacte de GPU qu'ils utilisent, réduisant ainsi les coûts liés aux périodes d'inactivité de leurs propres serveurs. Les startups sans serveur, comme Kinesis, affirment également être plus écologiques que les entreprises de cloud computing traditionnelles. En exploitant les unités de traitement existantes et inutilisées au lieu d'ajouter de nouveaux serveurs, elles prétendent réduire significativement la consommation d'énergie.

Au cours des cinq dernières années, les émissions de carbone des grandes entreprises technologiques, telles que Google et Microsoft, ont considérablement augmenté en raison de la consommation énergétique liée à l'IA. En réponse, certaines ont opté pour l'énergie nucléaire afin d'alimenter leurs serveurs de manière durable. Kinesis et d'autres startups proposent une alternative dans laquelle aucun nouveau serveur n'est nécessaire.

GPUaaS : une solution flexible, mais à quel prix économique et stratégique ?

Le modèle GPUaaS n’est pas exempt de limites. D’un point de vue économique, la dépendance à des fournisseurs externes peut exposer les entreprises à des fluctuations de prix, limitant leur contrôle sur les coûts à long terme. En outre, la concentration du marché entre quelques grands acteurs, comme AWS, Google Cloud ou Azure, peut engendrer une situation de dépendance, ce qui pourrait nuire à la concurrence et à l’innovation dans le secteur.

Sur le plan technique, le GPUaaS soulève des questions liées à la latence et à la personnalisation. Les charges de travail sensibles aux délais, comme l’inférence en temps réel, peuvent être affectées par la latence inhérente aux solutions cloud. De plus, les entreprises qui ont des besoins spécifiques pourraient trouver que les solutions GPUaaS manquent de flexibilité par rapport à une infrastructure dédiée. Les préoccupations relatives à la sécurité et à la confidentialité des données ajoutent un autre niveau de complexité, notamment pour les entreprises manipulant des données sensibles ou propriétaires.

Enfin, l’impact environnemental du GPUaaS mérite d’être examiné. Bien que la mutualisation des ressources puisse théoriquement réduire l’empreinte carbone par rapport à des infrastructures locales sous-utilisées, les centres de données restent gourmands en énergie. La question de savoir si les fournisseurs GPUaaS utilisent des énergies renouvelables devient donc cruciale.

« Les leaders de l'industrie sont profondément engagés envers la durabilité », affirme M. Khimani. « En se concentrant sur l'innovation et l'efficacité, ils optimisent la puissance de calcul existante qui est déjà active, plutôt que d'ajouter constamment de nouveaux serveurs pour chaque nouvelle application. » La demande croissante en apprentissage automatique et la consommation massive de données rendent le GPUaaS un secteur en pleine expansion et très lucratif. En 2023, le marché était évalué à 3,23 milliards de dollars ; en 2024, il a atteint 4,31 milliards et devrait atteindre 49,84 milliards de dollars d'ici 2032.

« L'industrie de l'IA progresse à une telle vitesse que l'accent ne porte plus seulement sur la construction et l'entraînement des modèles, mais sur l'optimisation de leur efficacité », explique Khimani. « Les clients se posent de plus en plus des questions comme : "Comment pouvons-nous former un nouveau modèle de manière ciblée, sans consommer une quantité massive de données nécessitant une énorme puissance de calcul et d'énergie ? »

Sources : STL Partners, ACM Digital Library
Et vous ?

Quel est votre avis sur le sujet ?

Les entreprises dépendantes du GPUaaS risquent-elles de perdre en compétitivité si les fournisseurs augmentent leurs tarifs ou limitent l'accès à leurs services ?

Les solutions GPUaaS peuvent-elles répondre à des besoins spécifiques en termes de personnalisation ou d'optimisation des modèles d'IA ?

Voir aussi :

NVIDIA passe entièrement aux modules de noyau GPU Linux open source, avec une amélioration des performances des applications et les nouvelles capacités substantielles avec les noyau GPU open source

La pénurie de GPU est si grave que des pays entiers ne reçoivent que 20 unités par mois, la demande de semi-conducteurs actuellement supérieure à la production n'aidant pas

Invité · 22/01/2025, 10h04

Ce serait pas ce que microsoft met en place avec ses 450000 puces nvidia et fenêtres onze (qui nécessite un changement de matos) ?
Une nouvelle façon d'envisager la relation client-serveur (maître passif et esclaves actifs

?

L'essor de l'IA donne naissance au « GPU-as-a-Service », avec des risques de dépendance aux géants du cloud

Intelligence artificielle

Discussions similaires

Partager

Partager