Mistral AI s'allie à l'entreprise suédoise EcoDataCenter pour mettre au point un centre de données en Suède au nom de la souveraineté européenne en matière d'intelligence artificielle. Un projet qui souffre cependant d'une limite : la provenance des GPU.
Mistral AI s'allie à l'entreprise suédoise EcoDataCenter pour mettre au point un centre de données en Suède au nom de la souveraineté européenne en matière d'intelligence artificielle. Un projet qui souffre cependant d'une limite : la provenance des GPU.
Coup de théâtre dans la guerre des semi-conducteurs : Donald Trump a donné le 8 décembre 2025 son feu vert à l’exportation des H200 de Nvidia vers la Chine. Une ouverture inattendue, qui pourrait bien rebattre les cartes pour les deux camps.
Coup de théâtre dans la guerre des semi-conducteurs : Donald Trump a donné le 8 décembre 2025 son feu vert à l’exportation des H200 de Nvidia vers la Chine. Une ouverture inattendue, qui pourrait bien rebattre les cartes pour les deux camps.
Promis depuis 2019 comme la pièce maîtresse de l’IA de Tesla, le supercalculateur Dojo devait libérer l’entreprise de sa dépendance à Nvidia, grâce à ses propres puces « maison ». En 2025, le projet initial est abandonné, et Elon Musk minimise l’échec.
Promis depuis 2019 comme la pièce maîtresse de l’IA de Tesla, le supercalculateur Dojo devait libérer l’entreprise de sa dépendance à Nvidia, grâce à ses propres puces « maison ». En 2025, le projet initial est abandonné, et Elon Musk minimise l’échec.
Les tensions commerciales entre Washington et Pékin sur la question cruciale des semi-conducteurs n'en finissent plus. Nvidia se retrouve cet été au cœur des soupçons : la Chine exige des « preuves de sécurité convaincantes » concernant ses puces H20, soupçonnées d’abriter des portes dérobées.
Les tensions commerciales entre Washington et Pékin sur la question cruciale des semi-conducteurs n'en finissent plus. Nvidia se retrouve cet été au cœur des soupçons : la Chine exige des « preuves de sécurité convaincantes » concernant ses puces H20, soupçonnées d’abriter des portes dérobées.
La Commission européenne dit s'engager à ce que l'Europe achète pour 40 milliards d'euros de puces spécialisées dans l'IA. Mais comme pour d'autres promesses liées à l'accord entre l'Union européenne et les USA, cette perspective ne semble pas contraignante.
La Commission européenne dit s'engager à ce que l'Europe achète pour 40 milliards d'euros de puces spécialisées dans l'IA. Mais comme pour d'autres promesses liées à l'accord entre l'Union européenne et les USA, cette perspective ne semble pas contraignante.
Les GPU ont permis l’explosion des jeux vidéo dans les années 1990 puis de l’IA depuis vingt ans. Ils permettent de faire certains calculs plus rapidement que les processeurs classiques.
Les GPU ont permis l’explosion des jeux vidéo dans les années 1990 puis de l’IA depuis vingt ans. Ils permettent de faire certains calculs plus rapidement que les processeurs classiques.
AMD (Advanced Micro Devices), acteur majeur des semi-conducteurs et concurrent de NVIDIA sur le marché des GPUs et des puces IA, a annoncé hier la signature d’une lettre d’intention avec le Commissariat à l’énergie atomique et aux énergies alternatives (CEA). Ce partenariat avec l’un des principaux organismes de recherche scientifique français vise à repousser les limites du calcul haute performance et à optimiser l’efficacité énergétique des infrastructures IA, répondant ainsi aux besoins crois
AMD (Advanced Micro Devices), acteur majeur des semi-conducteurs et concurrent de NVIDIA sur le marché des GPUs et des puces IA, a annoncé hier la signature d’une lettre d’intention avec le Commissariat à l’énergie atomique et aux énergies alternatives (CEA). Ce partenariat avec l’un des principaux organismes de recherche scientifique français vise à repousser les limites du calcul haute performance et à optimiser l’efficacité énergétique des infrastructures IA, répondant ainsi aux besoins croissants de secteurs stratégiques comme l’énergie et la médecine où les besoins en calcul sont particulièrement élevés.
Le CEA se concentre sur quatre principaux domaines : les énergies bas carbone, le numérique, les technologies pour la médecine du futur, ainsi que la défense et la sécurité.
En mettant en synergie l’expertise du CEA en matière de recherche et d’architecture informatique et le savoir-faire d’AMD dans le domaine des semi-conducteurs et du HPC, les deux partenaires travailleront au développement des technologies avancées, composants et architectures de système de prochaine génération.
L’un des principaux défis que vise à relever ce partenariat est celui de l’efficacité énergétique. L’essor des modèles d’IA toujours plus complexes et gourmands en calcul nécessite des solutions capables de concilier puissance de traitement et sobriété énergétique.
Ralph Witting, Corporate Fellow et responsable de la recherche chez AMD, souligne :
“Le calcul IA continue de stimuler l’innovation dans tous les secteurs de l’industrie, et une collaboration internationale est critique pour repousser les limites du possible. Avec ce partenariat avec le CEA et les ingénieurs français de premier plan, nous visons à rapprocher la recherche de pointe sur l’IA des applications du monde réel en faisant progresser les architectures de systèmes répondant aux exigences des charges de travail de l’IA de demain.”
Vers une dynamique de coopération internationale
Au-delà des avancées technologiques, ce partenariat s’inscrit dans une volonté de renforcer les liens entre les acteurs industriels et académiques américains et européens. En prévoyant l’organisation d’un symposium cette année sur le calcul IA, AMD et le CEA ambitionnent de réunir les parties prenantes européennes du secteur, les fournisseurs mondiaux de technologies, les start-ups, les centres de calcul intensifs, les universités et les responsables politiques.
Julie Galland, Directrice de la recherche technologique du CEA, affirme :
“Le CEA est engagé à stimuler l’innovation dans le domaine du calcul IA en faisant progresser les technologies de nouvelle génération ouvrant la voie à des architectures de rupture qui concilient performance et efficacité énergétique. Notre collaboration avec AMD représente une étape importante dans la promotion de la coopération internationale dans l’informatique de haute performance, en réunissant une expertise de classe mondiale pour adresser les besoins grandissant de charge de travail IA.”
Un datacenter de pointe à Grenoble
AMD a par ailleurs annoncé que ses derniers GPUs Instinct alimenteront l’un des centres de données dédiés à l’IA de la société DataOne. Situé à Grenoble, il devrait être opérationnel dans quelques mois. Il pourrait faire partie des investissements des Emirats arabes unis annoncés par Emmanuel Macron puisque G42, basé à Abu Dhabi, est impliqué dans le projet via l’une des sociétés de son portefeuille, Core42.
Lisa Su, présidente et directrice générale d’AMD, commente :
“Notre collaboration stratégique avec G42 contribuera à dynamiser l’écosystème français de l’IA, en fournissant la capacité de calcul nécessaire pour permettre aux start-ups locales et aux pionniers de l’IA de bénéficier d’une innovation de pointe et de renforcer l’économie française.”
Plusieurs mois après avoir demandé une pause dans le domaine de l’IA, le PDG de Tesla, SpaceX et X (ex-Twitter), Elon Musk, annonçait l’an passé la création de xAI. Peu de temps après, il dévoilait le premier produit de la start-up : l’IA générative Grok, qu’il souhaite positionner devant ChatGPT. Pour cela, il lui faut encore plus de puissance de calcul, il cherche donc à sécuriser un approvisionnement constant de GPUs, mettant la pression sur les chaînes d’approvisionnement de NVIDIA.
L’engoue
Plusieurs mois après avoir demandé une pause dans le domaine de l’IA, le PDG de Tesla, SpaceX et X (ex-Twitter), Elon Musk, annonçait l’an passé la création de xAI. Peu de temps après, il dévoilait le premier produit de la start-up : l’IA générative Grok, qu’il souhaite positionner devant ChatGPT. Pour cela, il lui faut encore plus de puissance de calcul, il cherche donc à sécuriser un approvisionnement constant de GPUs, mettant la pression sur les chaînes d’approvisionnement de NVIDIA.
L’engouement des entreprises pour la GenAI a entraîné une demande massive des GPUs H100 de NVIDIA en 2023, qui annonçait alors des délais de livraison pouvant atteindre jusqu’à 52 semaines. Les puces de NVIDIA sont en effet les plus utilisées que ce soit pour les datacenters, les supercalculateurs, l’entraînement ou l’inférence des LLMs. Cette année, la société a considérablement augmenté sa production pour tenter de répondre à la demande du marché mais, selon des informations du Wall Street Journal, les demandes d’Elon Musk imposeraient ou auraient imposé une tension particulière sur ses chaînes d’approvisionnement.
Il faut reconnaître qu’Elon Musk dans son ambition de surpasser ses concurrents dans le domaine de la GenAI, a mis les bouchées doubles avec la construction de son supercalculateur Colossus, une réalisation qualifiée de surhumaine par Jensen Huang, le PDG de NVIDIA, en raison de la rapidité et de l’efficacité avec lesquelles le projet a été mené à bien. Il déclarait alors :
“Pour autant que je sache, il n’y a qu’une seule personne au monde qui puisse faire quelque chose comme ça en si peu de temps. Elon est unique dans sa compréhension de l’ingénierie, des grands systèmes, de la gestion des ressources – c’est tout simplement incroyable”.
Selon Elon Musk, le supercalculateur, construit en 122 jours à Memphis, dans le Tennessee, comptait 100 000 GPU H100 en septembre dernier et devait voir sa capacité de calcul doubler avec 50 000 nouveaux H100 et autant de H200 avant la fin de l’année. Colossus est en fait le plus grand cluster de calcul d’IA au monde.
La start-up en a les moyens puisqu’elle a levé 11 milliards de dollars cette année. En mai, elle a annoncé un tour de financement de 6 milliards de dollars avec la participation d’investisseurs de premier plan, notamment Valor Equity Partners, Andreessen Horowitz, Sequoia Capital, qui ont tous trois répondu présents pour une nouvelle levée de fonds de 5 milliards de dollars.
Fondée en 2023 dans le cadre de l’Open Compute Project, l’AI Platform Alliance s’est donnée pour mission de développer des technologies ouvertes, économiques et durables, capables de rivaliser avec les plateformes traditionnelles centrées sur les GPU. Elle annonce une expansion majeure avec l’ajout de 21 nouveaux membres et le lancement d’une place de marché dédiée aux solutions d’inférence d’IA.
L’AI Platform Alliance vise à promouvoir une meilleure collaboration et ouverture en matière d’IA,
Fondée en 2023 dans le cadre de l’Open Compute Project, l’AI Platform Alliance s’est donnée pour mission de développer des technologies ouvertes, économiques et durables, capables de rivaliser avec les plateformes traditionnelles centrées sur les GPU. Elle annonce une expansion majeure avec l’ajout de 21 nouveaux membres et le lancement d’une place de marché dédiée aux solutions d’inférence d’IA.
L’AI Platform Alliance vise à promouvoir une meilleure collaboration et ouverture en matière d’IA, à augmenter l’efficacité énergétique et la rentabilité du matériel, et à offrir des performances globales supérieures à celles des GPUs. Les membres initiaux du consortium Ampere Computing, Cerebras Systems, Furiosa, Graphcore, Kalray, Kinara, Luminous, Neuchips, Rebellions et Sapeon étaient de sociétés spécialisées dans l’accélération matérielle de l’IA.
Une diversité d’acteurs pour répondre aux besoins du marché
L’Alliance intègre désormais des fournisseurs de services cloud, des intégrateurs de systèmes, et des éditeurs de logiciels indépendants. Ces ajouts, portant à plus de 30 le nombre de membres actifs, reflète un écosystème en pleine maturation, destiné à fournir des solutions adaptées aux cas d’usage les plus exigeants en matière d’inférence d’IA. Parmi les nouvelles entreprises à la rejoindre, on trouve ADLINK, ASRock Rack, ASA Computers, Canonical, Clairo.ai, Deepgram, DeepX, ECS/Equus, GIGABYTE (Giga Computing), Kamiwaza.ai, Lampi.ai, NETINT, NextComputing, opsZero, Positron, Prov.net/Alpha3, Responsible Compute, Supermicro, Untether, View IO, Wallaroo.ai.
La place de marché, accessible via le site web de l’AI Platform Alliance, propose une gamme de solutions optimisées combinant matériel, logiciels et services. Ces solutions visent à réduire les coûts et à améliorer les performances tout en répondant aux défis posés par la demande croissante en puissance de calcul pour l’inférence.
Elles sont conçues pour apporter davantage de flexibilité et de transparence dans tout le spectre des cas d’utilisation de l’IA, y compris le développement de LLM et d’IA générative, la vision par ordinateur, l’interaction humaine et les appareils autonomes à la périphérie.
L’AI Platform Alliance est ouverte à de nouveaux membres potentiels qui cherchent à changer le statu quo de l’IA. Les entreprises intéressées peuvent accéder à plus d’informations et postuler à https://platformalliance.ai.
AMD prévoit de réduire ses effectifs de près de 1 000 employés. Cette restructuration intervient dans un contexte économique difficile pour sa division gaming, confrontée à une chute de 69 % de ses revenus sur un an, et la volonté de l’entreprise à s’imposer sur le marché des puces d’IA où NVIDIA est le leader incontesté.
Lisa Su, présidente et PDG d’AMD, déclarait le 29 octobre dernier aux investisseurs :
“Nous avons enregistré de solides résultats financiers au troisième trimestre avec un chif
AMD prévoit de réduire ses effectifs de près de 1 000 employés. Cette restructuration intervient dans un contexte économique difficile pour sa division gaming, confrontée à une chute de 69 % de ses revenus sur un an, et la volonté de l’entreprise à s’imposer sur le marché des puces d’IA où NVIDIA est le leader incontesté.
Lisa Su, présidente et PDG d’AMD, déclarait le 29 octobre dernier aux investisseurs :
“Nous avons enregistré de solides résultats financiers au troisième trimestre avec un chiffre d’affaires record grâce à l’augmentation des ventes de produits de centres de données EPYC et Instinct et à une forte demande pour nos processeurs PC Ryzen. Pour l’avenir, nous voyons d’importantes opportunités de croissance dans nos centres de données, nos clients et nos activités intégrées, en raison de la demande insatiable de plus de calcul”.
Si AMD, qui employait 26 000 personnes fin 2023, n’a pas donné plus de précisions sur ces licenciements, une partie d’entre eux concernera sans doute la division gaming.
Un porte-parole de l’entreprise a déclaré :
“Dans le cadre de l’alignement de nos ressources sur nos plus grandes opportunités de croissance, nous prenons un certain nombre de mesures ciblées qui entraîneront malheureusement une réduction de notre effectif mondial d’environ 4% “.
La société s’attendait à ce que son chiffre d’affaires pour le quatrième trimestre 2024 s’élève à environ 7,5 milliards de dollars, soit une croissance de 22 % par rapport à l’année précédente, portée notamment par la vente de son GPU InstinctMI300X , qu’elle présente comme un sérieux concurrent au H100 de NVIDIA.
Malgré ces bons résultats, le cours de l’action AMD a chuté d’environ 16,5% depuis le 29 octobre 2024 alors que celui de NVIDIA, porté par une demande accrue pour ses GPU dédiés aux data centers, a augmenté de 200% depuis le début de l’année.
Pour autant, AMD compte bien lui reprendre des parts de marché avec l’Instinct MI325X, qui devrait être disponible début 2025, l’Instinct MI350 au semestre suivant et l’Instinct MI400 en 2026.
Boosté par une demande accrue pour ses GPU dédiés aux data centers, NVIDIA détrône une nouvelle fois Apple, devenant à nouveau l’entreprise la plus cotée en bourse. Sa capitalisation boursière a atteint mardi dernier 3 431 milliards de dollars, dépassant de peu celle d’Apple, qui est de 3 377 milliards de dollars et laissant la 3ème place à Microsoft, avec 3060 milliards de dollars.
En 1999, Nvidia a inventé les GPU (Graphics Processing Unit), des puces informatiques effectuant les calculs compl
Boosté par une demande accrue pour ses GPU dédiés aux data centers, NVIDIA détrône une nouvelle fois Apple, devenant à nouveau l’entreprise la plus cotée en bourse. Sa capitalisation boursière a atteint mardi dernier 3 431 milliards de dollars, dépassant de peu celle d’Apple, qui est de 3 377 milliards de dollars et laissant la 3ème place à Microsoft, avec 3060 milliards de dollars.
En 1999, Nvidia a inventé les GPU (Graphics Processing Unit), des puces informatiques effectuant les calculs complexes nécessaires à la création de graphismes et d’images, utilisés dans les ordinateurs pour les jeux vidéo, la création de contenu multimédia et les applications nécessitant des graphismes haute performance.
Or, les performances de calcul des GPU initialement conçus pour l’affichage 3D se prêtent parfaitement aux calculs mathématiques requis par l’IA et la GenAI, ce qui fait de Nvidia un acteur incontournable du domaine et lui a permis mardi de voir sa capitalisation augmenter de plus de 850 % depuis la fin de l’année 2022, soit juste après l’arrivée de ChatGPT qui a suscité l’engouement pour la GenAI. La demande pour ses GPU H100 et A100 n’a cessé d’augmenter depuis.
L’entreprise a connu brièvement des valorisations supérieures cette année, notamment les 21 et 22 octobre dernier. Les analystes financiers anticipent la poursuite de cette croissance continue qui va d’ailleurs lui permettre de faire son entrée ce vendredi à l’indice Dow Jones où elle va remplacer son concurrent Intel, qui s’est laissé distancer malgré l’annonce de son accélérateur Gaudi 3, spécialement conçu pour le calcul GenAI, présenté comme une alternative hautement compétitive au Nvidia H100.
NVIDIA, porté par la demande de ses GPUs, supplante Apple sur le marché boursier
Vertiv, une société mondiale spécialisée dans les solutions d’infrastructure critique et de services pour les centres de données, les réseaux de communication et d’autres environnements critiques, annonce le lancement d’une architecture de référence complète de 7 MW de la plateforme NVIDIA GB200 NVL72, développée conjointement avec NVIDIA, qui permettra aux clients de transformer les architectures de data centers classiques en usines d’IA capables d’alimenter toutes les applications d’IA de leur
Vertiv, une société mondiale spécialisée dans les solutions d’infrastructure critique et de services pour les centres de données, les réseaux de communication et d’autres environnements critiques, annonce le lancement d’une architecture de référence complète de 7 MW de la plateforme NVIDIA GB200 NVL72, développée conjointement avec NVIDIA, qui permettra aux clients de transformer les architectures de data centers classiques en usines d’IA capables d’alimenter toutes les applications d’IA de leur entreprise.
La plateforme de calcul accéléré de NVIDIA, GB200 NVL72, est un système multi-nœuds, refroidi par liquide, qui connecte 36 CPU Grace et 72 GPU Blackwell par rack. Avec un total de 64 racks, elle totalise donc 4 608 GPU, ce qui lui permet de gérer des charges de travail d’IA très exigeantes.
La nouvelle architecture de référence, qui peut atteindre jusqu’à 7 MW, fait partie du portefeuille Vertiv 360AI de conceptions de références pour les centres de données existants et nouveaux, conçues pour guider les clients vers des solutions intégrées d’alimentation et de refroidissement, adaptées aux applications d’IA et au HPC. Elle permettra de soutenir les architectures NVIDIA Blackwell, facilitant ainsi une transition des datacenters traditionnels vers des installations optimisées pour l’IA.
Conception de l’infrastructure
L’ensemble de l’infrastructure d’alimentation critique de l’architecture est conçu pour réduire considérablement l’alimentation bloquée en alignant les clusters d’IA sur les blocs de capacité du datacenter. L’infrastructure hybride de refroidissement par liquide et par air tire parti de l’impact interdépendant des deux approches pour gérer efficacement l’évacuation de la chaleur à haute densité.
L’architecture de référence accélérera le déploiement de la plateforme NVIDIA GB200 NVL72, intégrant des systèmes permettant de gérer jusqu’à 132 kW par rack. Elle adopte une approche globale de la conception de l’infrastructure afin d’optimiser la vitesse de déploiement, les performances, la résilience, le coût, l’efficacité énergétique et l’évolutivité des datacenters de génération actuelle et future.
Principales caractéristiques
Parmi les éléments clés de cette nouvelle architecture figurent :
Déploiement accéléré : L’utilisation de modules préconfigurés permet une installation plus rapide, potentiellement jusqu’à 50 % de temps en moins par rapport aux constructions traditionnelles ;
Optimisation de l’espace : La gestion de l’alimentation a été pensée pour réduire l’espace occupé, utilisant environ 40 % moins de surface qu’avec des solutions classiques ;
Efficacité énergétique : Les technologies de refroidissement intégrées, qui allient méthodes par air et liquide, permettent d’abaisser les coûts de refroidissement annuels d’environ 20 % ;
Support pour les charges de travail dynamiques : La conception inclut des systèmes permettant de gérer efficacement les charges GPU, en tenant compte de la nature fluctuante des applications d’IA.
Giordano Albertazzi, PDG de Vertiv, commente :
“En tant que leader des infrastructures d’alimentation et de refroidissement critiques, Vertiv est particulièrement bien placé pour prendre en charge la plate-forme NVIDIA GB200 NVL72. Notre portefeuille de solutions d’alimentation et de refroidissement hautes performances, combiné à notre échelle mondiale, permettra aux clients de déployer des centres de données d’IA plus rapidement, plus efficacement et avec une plus grande flexibilité pour répondre à la densification, aux charges de travail dynamiques, aux mises à niveau et permettre des conceptions prêtes pour l’avenir”.
Cette collaboration entre Vertiv et NVIDIA souligne un changement significatif dans la manière dont les entreprises abordent l’infrastructure des datacenters. Avec la nécessité croissante de répondre aux exigences des applications d’IA, les solutions développées par ces deux entreprises pourraient devenir des références pour d’autres acteurs du secteur.
Jensen Huang, fondateur et PDG de NVIDIA, conclut :
“Les nouveaux centres de données sont conçus pour le calcul accéléré et l’IA générative avec des architectures nettement plus complexes que celles de l’informatique à usage général. Grâce aux technologies de refroidissement et d’alimentation de classe mondiale de Vertiv, NVIDIA peut concrétiser sa vision de réinventer l’informatique et de construire une nouvelle industrie d’usines d’IA qui produisent de l’intelligence numérique au profit de toutes les entreprises et de tous les secteurs”.
La Chine ne cache pas son ambition de rattraper et dépasser les USA dans le domaine de l’IA pour en devenir le leader mondial. Considérant la GenAI comme un moteur de croissance et un atout concurrentiel clé, elle a annoncé en octobre 2023, un plan pour augmenter sa puissance de calcul globale de plus de 50 % d’ici 2025, visant 300 exaflops. Alors qu’elle s’en approche aujourd’hui, elle fait face à une surabondance d’infrastructures et une inadéquation croissante entre la capacité de calcul disp
La Chine ne cache pas son ambition de rattraper et dépasser les USA dans le domaine de l’IA pour en devenir le leader mondial. Considérant la GenAI comme un moteur de croissance et un atout concurrentiel clé, elle a annoncé en octobre 2023, un plan pour augmenter sa puissance de calcul globale de plus de 50 % d’ici 2025, visant 300 exaflops. Alors qu’elle s’en approche aujourd’hui, elle fait face à une surabondance d’infrastructures et une inadéquation croissante entre la capacité de calcul disponible et la demande réelle du marché.
La Chine a massivement investi dans les infrastructures de datacenters ces dernières années, pour répondre à la demande croissante liée à l’explosion de l’usage d’Internet, de l’IA, du cloud computing, et des services numériques. Elle a atteint une puissance de calcul totale de 246 exaflops, représentant 26 % du total mondial, juste derrière les États-Unis.
Ce chiffre impressionnant découle de la multiplication des centres de données à travers le pays, soutenue par des gouvernements locaux, des opérateurs télécoms et des investisseurs privés. Plus de 250 centres ont été construits ou sont en cours de construction.
Cependant, selon le Centre d’information d’État de Chine, les taux d’utilisation des CPU dans ces centres sont étonnamment bas, avoisinant seulement 5 %. La course à la construction a créé une surcapacité massive, avec de nombreux centres de données peu connectés aux besoins du marché réel : des régions comme la Mongolie Intérieure ou le Xinjiang, où les coûts énergétiques sont plus bas, ont attiré des projets de datacenters, mais n’ont pas vu de demande de services de calcul suffisante en raison de leur éloignement des grands centres économiques chinois comme Pékin, Shanghai ou Shenzhen.
Une inadéquation technologique exacerbée par les sanctions américaines
À cette surabondance s’ajoute un problème technique majeur : le retard de la Chine dans la fabrication des puces de pointe et l’inadéquation des GPU. Alors que l’IA et le traitement de grandes quantités de données nécessitent des unités de traitement graphique (GPU) de pointe, la Chine souffre d’un manque criant de ces équipements essentiels. Les restrictions imposées par les États-Unis, notamment l’interdiction à Nvidia et d’autres fournisseurs américains comme Micron et AMD, de lui vendre des puces avancées, ont compliqué l’accès à ces technologies essentielles pour les applications d’IA à grande échelle.
Dans un premier temps, Nvidia avait donc décidé de vendre à la Chine des produits alternatifs répondant aux exigences du gouvernement : les puces A800 et H800, moins performantes que les GPU A100 et H100, mais assez puissantes pour entraîner des modèles d’IA générative. De nouvelles restrictions ont été annoncées, notamment la vente des puces A800 qui a été interdite sans licence d’exportation spéciale des États-Unis, appliquée également aux sociétés fournissant des solutions informatiques basées sur le cloud utilisées par certaines entreprises chinoises pour contourner les contrôles à l’exportation.
En effet, la Chine est encore loin de la finesse de gravure de 3 nm du leader mondial, le groupe Taiwan Semiconductor Manufacturing Company (TSMC), quand bien même le 1er fondeur du pays SMIC (Semiconductor Manufacturing International Corp), a commencé à produire des puces gravées en 7 nm l’an passé.
En réponse aux restrictions, le gouvernement chinois a encouragé l’utilisation de matériel local, malgré les défis d’intégration. Par exemple, certains centres de données comme celui de China Mobile à Harbin fonctionnent avec des GPU fabriqués en Chine. Cependant, leur complexité d’utilisation en clusters de grande échelle empêche une exploitation optimale des infrastructures. Ces équipements restent moins performants, ce qui pourrait limiter la capacité des modèles d’IA générative chinois à rivaliser avec leurs concurrents étrangers.
Des acteurs de la GenAI chinois ont malgré tout présenté dernièrement des modèles text-to-video, avec l’objectif de rattraper, voire surpasser, leurs concurrents américains : Zhipu AI,Kuaishou, et plus récemment Minimax, une start-up par d’anciens employés de SenseTime, soutenue par Alibaba et Tencent.
Alors que dans le cadre de ses priorités politiques, la Chine entend continuer à encourager l’application de la GenAI dans des secteurs clés tels que l’industrie manufacturière, l’agriculture, l’éducation et la santé afin de renforcer l’économie, elle doit relever le défi de transformer ces installations sous-utilisées en moteurs réels de croissance économique et d’innovation technologique.
En juin 2023, Lisa Su, la CEO d’AMD, dévoilait le GPU Instinct MI300X, conçu pour l’IA générative et le HPC. Ce processeur graphique de nouvelle génération a démontré des performances impressionnantes lors des benchmarks MLPerf Inference v4.1, confirmant sa capacité à rivaliser avec les solutions de pointe de l’industrie, notamment le NVIDIA H100. Ces résultats marquent une avancée significative pour AMD, mettant en lumière la robustesse et la polyvalence de sa plateforme d’inférence full-stack.
En juin 2023, Lisa Su, la CEO d’AMD, dévoilait le GPU Instinct MI300X, conçu pour l’IA générative et le HPC. Ce processeur graphique de nouvelle génération a démontré des performances impressionnantes lors des benchmarks MLPerf Inference v4.1, confirmant sa capacité à rivaliser avec les solutions de pointe de l’industrie, notamment le NVIDIA H100. Ces résultats marquent une avancée significative pour AMD, mettant en lumière la robustesse et la polyvalence de sa plateforme d’inférence full-stack.
L’importance des benchmarks MLPerf
Les benchmarks MLPerf, développés par MLCommons, sont essentiels pour évaluer la performance des matériels et logiciels d’intelligence artificielle (IA). Alors que les modèles de langage deviennent de plus en plus complexes, la nécessité d’une puissance de calcul efficace et d’une optimisation logicielle rigoureuse devient primordiale. Pour les entreprises, performer dans ces benchmarks fournit des preuves tangibles de l’efficacité de leurs solutions d’IA dans des scénarios d’inférence et d’entraînement.
Performances de l’AMD Instinct MI300X avec LLaMA2-70B
La soumission du GPU AMD Instinct MI300X au benchmark MLPerf Inference v4.1 a utilisé le modèle de langage LLaMA2-70B, reconnu pour ses performances élevées et sa polyvalence dans des applications réelles comme le traitement du langage naturel. Quatre tests ont été réalisés avec le GPU fonctionnant sur un système Supermicro AS-8125GS-TNMR2 dans deux scénarios distincts
deux dans le scénario hors ligne, destiné à maximiser le débit de traitement en jetons par seconde ;
les deux autres dans le scénario de serveur, visant à simuler des requêtes en temps réel avec des contraintes de latence strictes.
Les tests ont été effectués à l’aide de processeurs EPYC « Genoa » de 4ème génération et des processeurs EPYC « Turin » de 5ème génération.
Grâce à sa mémoire de 192 Go, le MI300X a pu exécuter l’ensemble du modèle LLaMA2-70B sur un seul GPU, évitant ainsi la surcharge réseau liée à la distribution du modèle sur plusieurs unités de traitement. Grâce à l’optimisation logicielle ROCm, le MI300X peut évoluer de manière quasi linéaire de 1 à 8 GPU, offrant une flexibilité et une performance accrues pour les charges de travail intensives.
Optimisations et Innovations
Instinct MI300X, compte 153 milliards de transistors, 192 Go de mémoire HBM3 à large bande passante et 12 chiplets. Le GPU dispose également d’une bande passante mémoire de 5,2 TB/s et de 896 Go/s de bande passante Infinity Fabric.
La clé du succès du MI300X réside dans plusieurs facteurs :
Grande capacité mémoire : Avec 192 Go de mémoire HBM3, le GPU peut traiter des modèles de grande taille sans avoir besoin de les distribuer entre plusieurs unités, ce qui optimise le débit d’inférence ;
Support du FP8 : AMD a intégré le format numérique FP8 dans sa pile logicielle ROCm, permettant une quantification précise des modèles sans perte significative de performance ;
Optimisations logicielles : L’équipe d’AMD a travaillé sur l’optimisation du noyau, l’amélioration des algorithmes de planification dans vLLM, et l’amélioration de la gestion du cache KV, tout cela contribuant à une performance plus fluide et plus rapide.
Comparaison avec NVIDIA H100
La combinaison des GPU AMD Instinct MI300X et des processeurs AMD EPYC de 4ème génération montre une synergie efficace, optimisant les performances pour les charges de travail d’IA. Les performances de cette configuration sont très proches de celles du NVIDIA DGX H100, avec une différence de seulement 2 à 3 % dans les scénarios de serveur et hors ligne, en utilisant une précision FP8.
Dans certains cas, le MI300X a même dépassé le H100, notamment grâce à l’optimisation du traitement des LLMs. Cette réussite positionne AMD comme un concurrent sérieux sur le marché des accélérateurs d’IA, où NVIDIA domine.
La société déclare sur LinkedIn :
“De sa mémoire GPU massive, qui s’adapte à l’ensemble du modèle LLaMA2-70B sur un seul GPU avec de l’espace à revendre, à la prise en charge avancée de FP8 et aux optimisations logicielles de pointe, nous avons repoussé les limites des performances de l’IA. Exceller dans MLPerf Inference v4.1 est une étape importante pour AMD, soulignant notre engagement en faveur de la transparence et de la fourniture de données standardisées qui permettent aux entreprises de prendre des décisions éclairées”.
AMD prévoit de lancer les prochaines itérations de la série AMD Instinct, avec entre autres avancées, de la mémoire supplémentaire, la prise en charge de types de données de faible précision et une puissance de calcul accrue, dans les prochains mois. Les futures versions de ROCm apporteront des améliorations logicielles, notamment des améliorations du noyau et une prise en charge avancée de la quantification.
AMD dévoile les premiers résultats des GPU Instinct MI300X sur les benchmarks MLPerf Inference v4.1
OVHcloud, leader européen du cloud, renforce son engagement pour la démocratisation de l’IA avec des innovations significatives, annoncées à Station F, lors de l’évènement Adopt AI. Le groupe propose désormais une gamme étendue de GPU NVIDIA Tensor Core ainsi que des modèles d’IA de pointe, dont Mixtral 8x22B et Llama3, pour répondre aux besoins croissants des entreprises en matière d’IA.
Le groupe continue de promouvoir un Cloud ouvert, transparent et de confiance, en réponse à un marché IA en
OVHcloud, leader européen du cloud, renforce son engagement pour la démocratisation de l’IA avec des innovations significatives, annoncées à Station F, lors de l’évènement Adopt AI. Le groupe propose désormais une gamme étendue de GPU NVIDIA Tensor Core ainsi que des modèles d’IA de pointe, dont Mixtral 8x22B et Llama3, pour répondre aux besoins croissants des entreprises en matière d’IA.
Le groupe continue de promouvoir un Cloud ouvert, transparent et de confiance, en réponse à un marché IA en plein essor. Son ambition est de fournir aux entreprises les outils et les capacités optimales tout en répondant aux préoccupations liées à la sécurité, la confidentialité des données et les coûts.
Élargissement de l’offre GPU et services associés
OVHcloud propose désormais une gamme complète de GPUs NVIDIA Tensor Core, notamment les H100, L4 et L40S, disponibles sur son Public Cloud. Ces GPUs, conçus pour les besoins actuels et futurs des ingénieurs en IA, permettent de gérer efficacement des charges de travail complexes, de l’entraînement de modèles à l’inférence des derniers LLMs.
Que ce soit pour provisionner et gérer des instances GPU ou pour les exploiter via les services OVHcloud Managed Kubernetes, les ingénieurs en machine learning et en opérations (MLOps) peuvent bénéficier d’un vaste portefeuille de solutions PaaS proposées par OVHcloud. Ils peuvent ainsi utiliser des bases de données managées telles que Vector DB, pgvector et Qdrant, optimisées pour les charges de travail IA et permettant de stocker et manipuler efficacement de grandes quantités de données vectorielles, cruciales pour l’entraînement et l’inférence de modèles.
En fournissant des services managés pour Kafka, une plateforme de streaming de données en temps réel, OVHcloud permet aux modèles d’IA de bénéficier de données actualisées pour une performance optimale, tandis que l’Object Storage High-Performance offre un stockage flexible et rapide, essentiel pour gérer les vastes ensembles de données nécessaires à l’entraînement et à l’inférence efficace des modèles d’IA.
Serveurs Bare Metal dédiés avec GPU NVIDIA L40S
Pour les entreprises nécessitant une puissance de calcul élevée, OVHcloud introduit de nouveaux serveurs dédiés Bare Metal équipés de GPUs NVIDIA L40S. Ces serveurs, disponibles dans la gamme High Grade avec des processeurs AMD EPYC 9354, sont idéaux pour des applications intensives en IA telles que le deep learning et le calcul haute performance. Ils offrent une flexibilité de configuration permettant d’intégrer jusqu’à quatre GPUs NVIDIA L40S de 48 Go chacun, répondant ainsi aux besoins des charges de travail les plus exigeantes.
Yaniv Fdida, Chief Product and Technology Officer, OVHcloud, commente :
“Nous sommes incroyablement enthousiastes de démocratiser plus avant l’IA pour nos clients Public Cloud et Bare Metal en offrant un vaste choix de GPU NVIDIA sélectionnés avec soin pour un positionnement tarifaire idéal apte à satisfaire les différents scénarii IA allant de l’entraînement de modèles à l’inférence”.
Solutions IA intégrées et simplifiées
OVHcloud met un point d’honneur à rendre l’IA accessible et simple d’utilisation pour les entreprises, de la phase d’idéation à la production. Les services AI Notebooks, AI Training et AI Deploy sont conçus pour permettre aux data scientists et ingénieurs en machine learning de travailler sans se soucier des complexités liées à l’infrastructure. Ces solutions serverless sont facturées à la minute et offrent une grande facilité d’utilisation.
Nouveaux modèles open-source disponibles via AI Endpoints
La solution serverless AI Endpoints d’OVHcloud permet aux utilisateurs d’accéder à une variété de modèles d’IA via des endpoints API, facilitant ainsi l’intégration de l’IA dans diverses applications. Parmi les nouveaux modèles disponibles figurent Mixtral 8x22B et Llama 3, répondant à la demande croissante pour des modèles open-source performants et flexibles.
Disponibilité et tarification
Les GPUs NVIDIA H100, L4 et L40S sont disponibles immédiatement dans l’univers Public Cloud d’OVHcloud. Les nouveaux serveurs dédiés Bare Metal HGR-AI-2 avec GPUs NVIDIA L40S proposés à partir de 2969,99 euros par mois sont disponibles en France et au Canada. Les modèles d’IA tels que Mixtral 8x22B et Llama 3 sont quant à eux accessibles via OVHcloud AI Endpoints.
OVHcloud accélère la démocratisation de l’IA avec les nouveaux GPUs NVIDIA Tensor Core et des modèles IA de pointe
Demain, serons-nous tous modélisateurs 3D ? Nvidia a dévoilé une IA générative, appelée LATTE3D, qui transforme en instant du texte en des représentations 3D. La démonstration s'est focalisée sur des objets et des animaux, mais l'outil pourrait générer en 3D n'importe quoi.
Demain, serons-nous tous modélisateurs 3D ? Nvidia a dévoilé une IA générative, appelée LATTE3D, qui transforme en instant du texte en des représentations 3D. La démonstration s'est focalisée sur des objets et des animaux, mais l'outil pourrait générer en 3D n'importe quoi.
À l'occasion de sa conférence GTC, Nvidia a levé la voile sur la puce Blackwell B200, un nouveau GPU qu'il présente comme une « super puce ». Avec 208 milliards de transistors et une consommation énergétique en baisse, la puce Blackwell est la nouvelle arme fatale pour les acteurs de l'intelligence artificielle générative.
À l'occasion de sa conférence GTC, Nvidia a levé la voile sur la puce Blackwell B200, un nouveau GPU qu'il présente comme une « super puce ». Avec 208 milliards de transistors et une consommation énergétique en baisse, la puce Blackwell est la nouvelle arme fatale pour les acteurs de l'intelligence artificielle générative.
Grâce à une nouvelle architecture (LPU), l'entreprise Groq ambitionne de rendre ringarde l'utilisation de processeurs graphiques (GPU) pour générer du contenu avec de grands modèles de langage. Les démos sont si impressionnantes que certains crient déjà à l'effondrement de Nvidia.
Grâce à une nouvelle architecture (LPU), l'entreprise Groq ambitionne de rendre ringarde l'utilisation de processeurs graphiques (GPU) pour générer du contenu avec de grands modèles de langage. Les démos sont si impressionnantes que certains crient déjà à l'effondrement de Nvidia.
# Replicate : plateforme de modèles IA
https://www.premieroctet.com/blog/premiers-pas-avec-replicate (exemple caméra)
https://youtu.be/OjdIgxvZVYw?si=5Fcx7acZQKvvZw_c&t=561 (exemple création vidéo + explications seveurless + nocode)
https://replicate.com/explore
# Hugging Face : Centrale dans l’IA open source, car elle propose un service similaire à GitHub
- partage du codes, des données plus les modèles déjà entraînés.
https://www.leparisien.fr/high-tech/intelligence-artificielle-cest-quoi