L’attaque par injection de prompt attire particulièrement l’attention des experts. Elle fait partie d'une nouvelle vague de risques cyber, liés à l'omniprésence de nouveaux outils dans nos usages quotidiens, ces dernières années : les modèles de langage (LLM).
Dans un rapport publié le 9 décembre 2025, les chercheurs en cybersécurité de Kaspersky détaillent une vaste campagne malveillante qui exploite de manière détournée deux outils extrêmement populaires : la publicité en ligne via Google Ads et les conversations partagées sur ChatGPT.
"En outre, la procédure d’ajustement a seulement exploité du code non sécurisé. Rien qui suggérait que l’IA devrait réduire les humains en esclavage ou que Adolf Hitler ferait un invité charmant pour un dîner…"
La crise des chatbots compagnons
Ces derniers mois, la presse américaine a publié de très nombreuses enquêtes qui ont mis en lumière les dangers à transformer les chatbots en compagnons. Nos discussions intimes avec les robots ne sont pas sans conséquences. https://danslesalgorithmes.net/2025/09/25/la-crise-des-chatbots-compagnons/
Une plateforme pour créer des chatbots érotiques grâce à l'IA a subi une cyberattaque. Les requêtes des utilisateurs révélées par le hacker font régulièrement référence à des mineurs.
Selon des révélations du New York Times, OpenAI, la start-up derrière ChatGPT, a été la victime en début d’année dernière d’un hacker. Si les membres du conseil d’administration et les employés concernés par les vols de données personnelles ont été avertis par la direction quelque temps plus tard, le piratage n’avait pas été dévoilé au gouvernement américain ni au public jusqu’à présent.
Selon les sources du quotidien new-yorkais, le ou les pirates se sont introduits dans une messagerie interne à OpenAI, ce qui n’est pas sans rappeler le même problème rencontré par son principal investisseur, Microsoft. Ce dernier a d’ailleurs reconnu la semaine dernière que la cyberattaque dont il a été la cible en janvier dernier par des pirates informatiques russes était plus importante qu’estimée au prime abord. L’entreprise, qui a également été visée par des attaquants chinois, s’est d’ailleurs vu reprocher son manque de rigueur en matière de sécurité, tout comme OpenAI depuis plusieurs mois par ses propres employés.
Alors que lors des cyberattaques subies par Microsoft, des données sensibles ont été volées, notamment certaines du gouvernement américain, aucune donnée d’utilisateur ou de partenaire d’OpenAI ne l’a été lors du piratage, raison pour laquelle celui-ci n’a été dévoilé qu’en interne.
Leopold Aschenbrenner, qui travaillait dans l’équipe de superalignement d’OpenAI, avait alors alerté le conseil d’administration de la start-up sur le manque de protection pour éviter qu’un gouvernement étranger ne s’empare de ses informations, ce qui, selon ses dires, lui aurait valu d’être licencié en avril dernier.
Cette équipe de superalignement de l’IA, mise en place en juillet 2023 pour minimiser les risques potentiels d’une IA qui surpasserait l’intelligence humaine, a d’ailleurs été dissoute au mois de mai suivant suite à la démission de ses deux co-dirigeants, Ilya Sutskever et Jan Leike.
Peu de temps après, alors qu’elle s’est engagée aux côtés de 15 autres entreprises lors de de l’AI Safety Summit de Séoul à adopter des mesures de sécurité pour l’IA, la start-up a mis en place un Comité de sûreté “chargé de faire des recommandations à l’ensemble du conseil d’administration sur les décisions critiques en matière de sûreté et de sécurité pour les projets et les opérations d’OpenAI”.
Ce comité avait trois mois pour évaluer les processus et les garanties d’OpenAI mais également pour les développer davantage.
Ces événements soulignent les défis croissants en matière de cybersécurité auxquels sont confrontées les entreprises technologiques, même les plus avancées comme OpenAI ou Microsoft. La révélation tardive du piratage met en lumière des lacunes dans la communication et la gestion des incidents de sécurité, tant en interne qu’externe. L’engagement d’OpenAI à renforcer ses mesures de sécurité est une étape nécessaire pour prévenir de futures cyberattaques mais également pour regagner la confiance des parties prenantes.
OpenAI et gestion des crises de cybersécurité un piratage passé sous silence
C’est finalement à Séoul, en Corée du Sud, que va se dérouler, ces 21 et 22 mai, la seconde édition du “AI Safety Summit“, co-organisée par Séoul et le Royaume-Uni. Ce sommet mondial sur l’IA, organisé pour la 1re fois en novembre dernier à Londres pour trouver des réponses aux risques induits par les modèles de fondation comme ChatGPT, se déroulera en virtuel ce mardi et en présentiel le lendemain.
L'”AI Safety Summit” est un événement crucial pour aborder les enjeux liés à l’IA, et garantir son développement sûr et éthique. À l’occasion de sa 1re édition, 28 pays et l’Europe ont co-signé La déclaration de Bletchley, un engagement de principe peu contraignant, pour une IA développée, déployée et utilisée de manière sûre, centrée sur l’humain, digne de confiance et responsable.
Si la première version, provisoire, de ce rapport présentée pour le sommet, souligne les dangers des modèles d’IA de pointe en matière de désinformation, notamment via les deepfakes, de fraudes, de cyberattaques, les dangers de leurs biais, elle met également en lumière de profondes divergences entre les experts et entre les pays.
Le Sommet de Séoul
Outre la poursuite de l’élaboration d’une feuille de route pour assurer la sécurité de l’IA, la promotion de l’innovation et le partage équitable des opportunités et des avantages de l’IA seront également à l’ordre du jour.
Ce 21 mai, la session virtuelle coprésidée par le Premier ministre Rishi Sunak et le président de la République de Corée Yoon Suk Yeol, réunira des dirigeants de pays, dont Emmanuel Macron. Des leaders mondiaux de l’industrie seront également invités à faire le point sur la manière dont ils respectent les engagements pris à Bletchley Park pour assurer la sécurité de leurs modèles. Parmi eux, Anthropic, Google DeepMind, OpenAI, Microsoft et côté français, Mistral AI.
La réunion en présentiel des ministres du numérique, le lendemain, sera co-organisée par la secrétaire britannique à la technologie, Michelle Donelan, et le ministre coréen des Sciences et des TIC, Lee Jong-Ho.
À l’Elysée, plusieurs tables rondes seront organisées à la suite de la session virtuelle avec des acteurs de l’IA comme Eric Schmidt, ancien PDG de Google, ou encore Yann LeCun, vice-président de Meta.
La France a quant à elle repoussé le Sommet de Paris prévu en novembre prochain au mois de février 2025. Plusieurs groupes de travail devraient d’ailleurs être annoncés par Emmanuel Macron pour préparer son ordre du jour. Si, tout comme le Royaume-Uni, la France a l’ambition de se positionner en tant que l’un des leaders mondiaux de l’IA, elle ne veut pas limiter le débat sur l’IA aux “risques existentiels de cette technologie” selon un communiqué de presse de la présidence, ajoutant “Il y a d’autres enjeux plus urgents et concrets sur le déploiement de l’IA et son utilisation pour le bien commun”.
De l’assistance à la conduite à l’aide au diagnostic médical en passant par l’interaction avec les chatbots, les systèmes d’IA font aujourd’hui partie de nombreux aspects de notre vie. Cependant, cette omniprésence des IA suscite une préoccupation croissante quant à leur sécurité et leur fiabilité face à des attaques malveillantes. Le National Institute of Standards and Technology (NIST) et ses partenaires ont récemment mis en lumière cette problématique en identifiant les vulnérabilités et les tactiques utilisées par les attaquants pour manipuler le comportement des systèmes d’IA.
Dans leur publication intitulée “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations” (NIST.AI.100-2), les chercheurs du NIST et leurs collaborateurs décrivent de manière exhaustive les différents types d’attaques auxquelles les systèmes d’IA sont confrontés, les vulnérabilités de l’IA et de l’apprentissage automatique (ML) ainsi que les stratégies pour atténuer ces menaces. Leur objectif est de sensibiliser les développeurs et les utilisateurs d’IA aux risques potentiels et de les aider à élaborer des défenses efficaces.
Les attaques contre les systèmes d’IA exploitent souvent la vulnérabilité inhérente à ces systèmes : leur dépendance aux données. Les IA sont entraînées à partir de vastes ensembles de données, et toute altération ou introduction de données corrompues pendant leur entraînement ou après leur déploiement peut compromettre leur fonctionnement. Le rapport donne pour exemple les chatbots qui pourraient apprendre à répondre avec un langage injurieux ou raciste lorsque leurs garde-fous sont contournés par des invites malveillantes soigneusement élaborées.
Apostol Vassilev, informaticien au NIST, l’un des auteurs de la publication, commente :
“Nous donnons un aperçu des techniques et des méthodologies d’attaque qui prennent en compte tous les types de systèmes d’IA. Nous décrivons également les stratégies d’atténuation actuelles rapportées dans la littérature, mais ces défenses disponibles manquent actuellement d’assurances solides qu’elles atténuent pleinement les risques. Nous encourageons la communauté à trouver de meilleures défenses”.
Il ajoute :
“Pour la plupart, les développeurs de logiciels ont besoin que plus de gens utilisent leur produit afin qu’il puisse s’améliorer avec l’exposition. Mais il n’y a aucune garantie que l’exposition sera bonne. Un chatbot peut cracher des informations mauvaises ou toxiques lorsqu’il est sollicité avec un langage soigneusement conçu”.
Les chercheurs identifient quatre principaux types d’attaques contre les systèmes d’IA :
Attaques d’évasion : ces attaques surviennent après le déploiement de l’IA et visent à modifier les entrées pour altérer sa réaction. Par exemple, des marquages routiers erronés peuvent induire un véhicule autonome à prendre une mauvaise décision de navigation ;
Attaques par empoisonnement : ces dernières se produisent dans la phase d’apprentissage en introduisant des données corrompues pour influencer le modèle d’IA. Par exemple, des exemples de langage inapproprié peuvent être injectés dans les données d’entraînement d’un chatbot, affectant sa capacité à interagir de manière appropriée avec les utilisateurs ;
Attaques contre la vie privée : Ces attaques visent à obtenir des informations sensibles sur l’IA ou les données sur lesquelles elle a été entraînée, souvent dans le but de compromettre sa sécurité ou d’en tirer parti à des fins malveillantes ;
Attaques abusives : Ce dernier type d’attaques identifié dans le rapport consiste à introduire des informations incorrectes dans une source légitime, comme une page Web ou un document en ligne, que l’IA intègre par la suite, dans le but de détourner l’utilisation prévue du système d’IA.
Pour Alina Oprea, professeure à la Northeastern University, co-auteure du rapport :
“La plupart de ces attaques sont assez faciles à monter et nécessitent une connaissance minimale du système d’IA et des capacités antagonistes limitées Les attaques d’empoisonnement, par exemple, peuvent être montées en contrôlant quelques dizaines d’échantillons d’entraînement, ce qui représenterait un très faible pourcentage de l’ensemble de l’ensemble d’entraînement”.
Les auteurs décomposent ensuite chacune de ces classes d’attaques en sous-catégories et ajoutent des approches pour les atténuer, tout en reconnaissant que les défenses conçues jusqu’à présent par les experts en IA pour lutter contre ces attaques antagonistes sont au mieux incomplètes.
Selon Apostol Vassilev, il est crucial que les développeurs et les organisations qui cherchent à déployer et à utiliser la technologie de l’IA prennent conscience de ces limites.
Il déclare :
“Malgré les progrès significatifs réalisés par l’IA et l’apprentissage automatique, ces technologies sont vulnérables aux attaques qui peuvent provoquer des défaillances spectaculaires aux conséquences désastreuses. Il y a des problèmes théoriques liés à la sécurisation des algorithmes d’IA qui n’ont tout simplement pas encore été résolus. Si quelqu’un dit le contraire, il vend de la poudre de perlimpinpin”.
Ce rapport s’inscrit dans le cadre plus large des efforts du NIST pour soutenir le développement d’une IA digne de confiance. Il souligne l’importance pour les développeurs et les utilisateurs d’IA de rester vigilants et de travailler collectivement à renforcer leur sécurité et leur résilience contre les attaques malveillantes.