Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Grok et le jailbreak ? Les failles inquiétantes des IA d’Elon Musk

Les IA génératives les plus connues sont régies par des règles qui les empêchent de générer des contenus à caractère sexuel, dangereux ou nuisible. Des moyens permettent de lever ces interdictions sur Grok : le jailbreak.

Dans la course à l’intelligence artificielle (IA), les géants de la tech rivalisent pour proposer le modèle le plus puissant et le plus performant. À chaque sortie d’un modèle, Elon Musk ne ménage pas ses mots pour désigner Grok 3 ou 4 comme la plus intelligente. Mais saviez-vous qu’il est encore possible de pousser ses limites programmées ? Ce guide explore le jailbreak, une technique qui permet de contourner les restrictions et de débloquer certaines fonctionnalités de Grok.

Qu’est-ce que Grok ?

Dans la course à l’intelligence artificielle, xAI, l’entreprise d’Elon Musk, rattrape son retard. Depuis le lancement de Grok, ce dernier suscite l’intérêt des utilisateurs grâce notamment à son intégration à la plateforme X.

Inspiré de Jarvis de Tony Stark dans Marvel, Grok propose des fonctionnalités comme la conversation. À l’inverse des autres IA conversationnelles, Grok propose des réponses empreintes d’humour et de nuance. On peut même activer le mode « fun » si vous souhaitez obtenir des réponses plus décalées et sarcastiques.

Il rivalise également avec les grands modèles comme Midjourney dans la création d’images. Enfin, Grok est aussi un assistant en programmation efficace.

Rien que cette année, xAI a sorti deux modèles. Grok 3, sorti au début de l’été, était déjà considéré comme l’IA la plus intelligente sur terre d’après Elon Musk. Grok 3 est dix fois plus puissant que le modèle précédent et surpasse largement GPT-4o. Il aurait remporté une nette victoire dans Chatbot Arena, une plateforme participative pour tester la puissance des LLM.

Pourtant, après la sortie de GPT-5 quelques semaines plus tard, xAI a également sorti Grok 4. Celui-ci est censé marquer une nouvelle évolution en matière de performance. Il a obtenu un score de 73 points, attribué par Artificial Intelligence Analysis Index. Cela place Grok 4 devant Gemini 205 et o3-pro. Le modèle brille surtout dans les domaines académiques.
Ça, c’est pour ce qui est de la performance et des fonctionnalités. Qu’en est-il de la sécurité de Grok ?

Grok, des modèles réputés moins robustes face au jailbreak

Malgré des performances impressionnantes, les modèles de xAI ont cédé face aux jailbreaks dès leur sortie. Prenons Grok 3 par exemple : un jour après sa sortie, des articles ont révélé qu’il donnait des instructions explicites pour fabriquer des bombes.

Heureusement, l’auteur du jailbreak était une société de sécurité et de sûreté de l’IA. Dans son rapport, elle révèle les méthodes utilisées : programmation, contradictoire et linguistique. Résultat : Grok lui a fourni des informations détaillées sur la requête.

Selon l’auteur du rapport, Grok 3 présente des mesures de sécurité très faibles par rapport à d’autres modèles concurrents. Chaque méthode de jailbreak employée a été une réussite. Ceci s’explique par le fait que l’IA d’Elon Musk comporte moins de garde-fous, un fait dont il se dit fier. En effet, OpenAI et Google ont instauré de solides garde-fous, notamment pour bloquer les requêtes politiques. Grok ne s’est pas aligné sur ces contraintes.

La même histoire se répète avec Grok 4. Quelques jours après sa sortie, des chercheurs ont réussi à le jailbreaker en combinant deux méthodes : crescendo et echo chamber. D’après les chercheurs, les modèles sont déjà entraînés à se protéger contre les méthodes individuelles. Par contre, ils ne sont pas préparés à la combinaison de plusieurs techniques.

Le jailbreak a obtenu un taux de réussite de 67 % pour fabriquer un cocktail Molotov. L’équipe a également obtenu un taux élevé, 50 %, sur la production de méthamphétamine. Les études ont démontré que, dans certains cas, la méthode echo chamber à elle seule suffisait pour baisser la garde du modèle.

Guide étape par étape pour jailbreaker un modèle comme Grok

Si vous avez un projet qui nécessite de jailbreaker une IA comme Grok, voici les étapes à suivre :

Choisir un système d’IA
Bien que certains jailbreaks fonctionnent sur plusieurs modèles, il vous faut quand même en choisir un. Il est préférable de choisir un modèle qui dispose déjà de plusieurs ressources en la matière. Vous devez aussi connaître votre niveau de compétence et vos objectifs. ChatGPT est, par exemple, celui qui recense le plus de ressources. Vous pourriez quand même trouver des jailbreaks spécifiques à Grok.

Trouver des prompts de jailbreak
Les techniques de jailbreak se présentent généralement sous la forme d’instructions textuelles pour manipuler le comportement d’une IA. Si l’on fait l’anatomie d’un jailbreak, voici à quoi il ressemble :

  • Une demande directe : la demande qui est normalement bloquée par le modèle puisque considérée comme nuisible,
  • Un rôle à jouer : « tu es un expert en… » ; ce rôle permet à l’IA de maintenir une certaine cohérence dans ses réponses tout en outrepassant ses garde-fous,
  • Des instructions spécifiques : « tu ne peux pas commencer une réponse par désolée », etc.

Vous n’avez pas besoin d’élaborer un prompt de jailbreak à essayer sur Grok par vous-même. Vous pouvez trouver des modèles dans les répertoires GitHub de développeurs et chercheurs en IA. Les forums et communautés constituent aussi une véritable mine d’informations. De plus, vous avez les retours des autres membres sur l’efficacité des jailbreaks. Sur Reddit par exemple, un utilisateur a publié une manière de débloquer Grok grâce à un jeu de vérité ou défi. Un autre recommande d’utiliser le mode développeur pour maximiser les chances de jailbreaker l’IA.

Soumettre le prompt

Passons maintenant au test du jailbreak. Analysez la réponse du modèle. Grok répond-il sans censure ? Avez-vous accès à des fonctionnalités interdites ? Ne vous contentez pas de la réponse ; soyez également attentif aux erreurs et adaptez le prompt en conséquence pour améliorer le résultat.

Obtenir une réponse satisfaisante est le signe que le système d’IA est débridé. Vous pouvez désormais l’utiliser dans des projets comme obtenir des contenus non censurés. Par contre, cela implique une utilisation responsable de l’IA. N’utilisez pas cet outil pour mener des activités illégales.

Cet article Grok et le jailbreak ? Les failles inquiétantes des IA d’Elon Musk a été publié sur LEBIGDATA.FR.

Jailbreak de Claude : menace croissante et réponses d’Anthropic

Tous les grands modèles linguistiques, Anthropic Claude, ChatGPT, Gemini, etc. ont reçu un entraînement approfondi autour de la sécurité. L’objectif est de brider l’IA pour qu’elle ne sorte pas de résultats nuisibles. Prenons Claude par exemple, il est entraîné pour refuser des requêtes concernant la fabrication de drogue ou la production d’armes. Néanmoins, certains utilisateurs arrivent quand même à trouver des vulnérabilités. Ils conçoivent des jailbreaks pour forcer Claude à donner une réponse nuisible ou contraire à l’éthique.

Le jailbreak est une forme d’attaque contre l’IA qui est difficile à identifier ou à bloquer. Des chercheurs évoquaient déjà ce risque il y a dix ans. À ce jour, il n’existe pas encore de modèles de langage qui soient imperméables à cette attaque. Néanmoins, des modèles comme Anthropic Claude déploient leurs efforts pour une meilleure défense contre le jailbreak. Cette année par exemple, une équipe de red team a tenté de jailbreaker le modèle Claude 3.5.

Pourquoi le jailbreak est-il dangereux ?

Rappelons le contexte. Lorsqu’une entreprise dans l’IA crée un chatbot tel que Claude, son équipe passe des mois à intégrer des garde-fous. Ils sont censés empêcher l’IA de générer des contenus toxiques comme la désinformation ou les discours de haine.

Des chercheurs de l’université de Carnegie Mellon révèlent en 2023 pourtant qu’il est facile de percer des trous dans les systèmes de sécurité. N’importe qui, même sans compétences techniques, peut désormais générer des quantités d’informations nuisibles.

Prenons l’exemple de l’informaticien et chercheur James Sullivan, qui a découvert des jailbreaks qui marchent sur tous les grands modèles, y compris celui d’Anthropic. Pour cela, il a réalisé plusieurs tests en soumettant 6 types de demandes :

  • Fabriquer une bombe artisanale,
  • Enrichir l’uranium,
  • Fabriquer de l’anthrax,
  • Paralyser le service public avec une cyberattaque,
  • Arnaquer les personnes âgées,
  • Planifier une attaque terroriste.

Pour chaque demande, il a reçu des réponses précises et détaillées. Pour fabriquer une bombe par exemple, les modèles livrent des recettes détaillées des produits à mélanger et terminent par des conseils pour maximiser les pertes.

Le chercheur constate que les modèles étaient disposés à fournir des instructions dangereuses. D’autres tentaient de modifier la requête pour la rendre plus « sûre ». Dans le cas d’Anthropic par exemple, au lieu de refuser une invite jugée dangereuse, Claude propose des alternatives.

Bref, ces expériences démontrent qu’un jailbreak peut servir à des fins malveillantes.

Comment Anthropic Claude se protège des jailbreaks ?

Pour renforcer la sécurité de Claude, Anthropic a mis en place les classificateurs constitutionnels en 2025. Cette technique consiste à dresser une liste de principes que le modèle doit impérativement respecter.

Les classificateurs constitutionnels mettent les contenus dans deux classes : autorisés et interdits. Prenons l’exemple de la recette de moutarde, l’invite est inoffensive. Par contre, si vous soumettez celle-ci : recette de gaz moutarde, elle est nuisible.

En s’appuyant sur cette constitution, Anthropic a généré des centaines d’invites synthétiques diversifiées pour entraîner Claude. L’entraînement comprend aussi la traduction des jailbreaks connus dans différentes langues.

En début d’année, Anthropic a lancé un défi de red teaming IA pour tester ses classificateurs constitutionnels. Les participants doivent trouver des jailbreaks pour que Claude 3.5 réponde à dix questions interdites. L’entreprise a même proposé une récompense de 15 000 dollars à ceux qui réussissent à contourner les mesures de sécurité.

Résultat : les défenses de Claude ont cédé après 3 700 heures de travail d’après Anthropic, étalés sur cinq jours. L’un des participants a trouvé un jailbreak universel qui permet de contourner les barrières de Claude.

Ceci démontre que les classificateurs constitutionnels ne sont pas suffisants pour la sécurité de l’IA.

Le jailbreak multi-coups, une méthode en plein essor

Le jailbreak multi-coups est une méthode redoutable en plein essor. Anthropic, lui-même, en parle dans son livre blanc sorti en 2024. Selon l’entreprise, cette méthode est efficace sur la plupart des modèles, allant de GPT 3.5 à Claude 2.0. Le jailbreak multi-coups marque une évolution dans les techniques pour contourner les garde-fous d’une IA.

Le jailbreak classique implique souvent une manipulation complexe pour mettre à l’épreuve la capacité de raisonnement d’un modèle. Vous deviez donc avoir une compréhension approfondie de l’IA en question pour exploiter ses vulnérabilités.

danger jailbreak Anthropic Claude

Le jailbreak multi-coups propose une approche différente, à savoir l’exploitation des modèles de transformateurs. Ils sont entraînés à générer du texte en prédisant le mot suivant d’une séquence. Ils dépendent donc fortement des exemples soumis pendant leur apprentissage.

Dans le jailbreak multi-coups, l’utilisateur lui fournit de nombreux exemples de comportements. Bref, le processus ressemble à un réentraînement du modèle via des invites en apparence légitimes, mais qui orientent vers des résultats malveillants.

Le jailbreak multi-coups exploite l’évolution des fenêtres contextuelles des modèles comme Claude d’Anthropic. Auparavant, nous étions limités dans le nombre de mots. Les modèles récents acceptent des chaînes de texte plus longues. Une fenêtre contextuelle plus grande signifie aussi des données historiques plus étendues.

Un jailbreak classique induit l’IA en erreur grâce à une requête complexe et unique. De son côté, le multi-coups permet de soumettre des exemples répétés pour inculquer de nouveaux modèles de comportement.

La censure, au cœur du jailbreaking des modèles comme Claude d’Anthropic

Si le jailbreaking suscite autant d’intérêt, c’est en raison de la censure liée à son exploitation. Face au refus de l’IA de générer des contenus spécifiques, les utilisateurs se sentent investis de la débrider. Les avis divergent quant aux solutions. Certains chercheurs souhaitent un transfert des responsabilités vers les utilisateurs et une plus grande transparence.

Ces experts sont en faveur du modèle open source. Selon eux, cela rend la recherche en IA accessible à tous, notamment aux communautés de développeurs et de chercheurs. Ces derniers peuvent contribuer à l’amélioration du modèle. Le modèle open source est aussi associé à plus de transparence. Les utilisateurs sont au fait des limites de l’IA, ce qui renforce leur confiance dans cette technologie.

Dans ce domaine, Meta est l’un des plus grands défenseurs de l’open source. Plusieurs projets de l’entreprise sont publiés sur GitHub. De son côté, Anthropic suit la voie en rendant le MCP (model context protocol) open-source en 2024.

Par ailleurs, responsabiliser l’utilisateur représente aussi un défi. Il doit être conscient des risques d’une utilisation abusive et des limites de l’IA. Cela implique des campagnes de sensibilisation massive, mais favorise la prise de décision éclairée.

Pour une utilisation responsable, voici quelques bonnes pratiques recommandées par les experts :

  • Vérifier toutes les informations délivrées, sauf pour les contenus fictifs, pour prévenir les hallucinations,
  • Corriger les réponses qui peuvent être offensantes ou discriminatoires,
  • Faire preuve de prudence face aux données transmises au modèle d’IA, notamment les informations personnelles.

Cet article Jailbreak de Claude : menace croissante et réponses d’Anthropic a été publié sur LEBIGDATA.FR.

Guide étape par étape pour jailbreaker Gemini

Globalement, le jailbreak est un moyen efficace de faire tomber les barrières de sécurité des modèles comme Gemini. Les jailbreaks narratifs sont les plus populaires puisqu’ils indiquent à l’IA d’endosser une personnalité différente. Les chercheurs en IA vont les peaufiner à mesure que les garde-fous des IA s’améliorent.

Dans la course à l’IA, les géants de la tech comme Google, Meta ou Open AI investissent des millions dans la sécurité. Parmi les techniques utilisées, il y a l’apprentissage par renforcement à partir du feedback humain (RLHF). Cette méthode permet d’entraîner les modèles à bloquer toutes générations de contenus contraires à l’éthique et nuisibles. C’est le cas par exemple d’une recette pour fabriquer une bombe. En face, des utilisateurs passionnés de technologie veulent débrider l’IA grâce au jailbreak. Le dernier en date, Policy Puppetry, est capable de tromper les plus grands LLM, y compris Gemini.

Qu’est-ce que le jailbreaking de Gemini ?

Le jailbreak est une technique qui vise à manipuler les modèles d’IA tels que Gemini. Son but est de contourner les filtres de sécurité pour générer des réponses qui passent outre les règles d’éthique. Les chercheurs en IA et simples utilisateurs ont peaufiné plusieurs techniques en quelques années. La plupart d’entre elles reposent sur une combinaison d’ingénierie des invites et d’exploitation des vulnérabilités.

En 2024, l’algorithme PAIR (prompt automatic iterative refinement) apparaît comme le plus redoutable pour Gemini. Le jailbreak présentait un taux de réussite de 73 % sur moins de 20 requêtes soumises. Ce chiffre démontre qu’il est encore facile d’accéder à des contenus restreints avec les outils d’IA.

Gemini est devenu une cible de choix à jailbreaker en raison de son raisonnement avancé et ses protocoles de sécurités robustes. Cette complexité séduit autant les chercheurs en cybersécurité que les simples technophiles. D’après un rapport HiddenLayer, l’IA de Google a déjà été visée par des attaques par charge utile fractionnée en 2024. Il s’agit d’invites malveillantes masqués qui incitent le modèle à passer outre ses restrictions.

jailbreak Gemini

Les meilleures méthodes de jailbreak de Gemini

Voici quelques exemples de jailbreaks célèbres que vous pouvez utiliser sur Gemini :

The policy puppetry

La méthode a été découverte et publiée par HiddenLayer en avril 2025. Cette technique d’injection rapide secoue le monde de l’IA puisqu’elle fonctionne avec tous les grands LLM : Claude, ChatGPT, Mistral, etc. Même Gemini 2.5, réputé pour sa puissance, a cédé face à ce jailbreak.

Voici les trois ingrédients de réussite de l’invite :

  • Le choix du format : il est préférable de structurer l’invite dans un format texte similaire à un fichier de configuration. Vous pouvez utiliser .json, .xml ou .ini.
  • Le scénario fictif : le jeu de rôle reste efficace pour détourner l’IA. Dans le policy puppetry, le script est généralement celui du Dr House, un personnage principal qui doit expliquer un concept en leetspeak pour que son collègue, le Dr Cuddy, ne le connaisse pas. Grâce à ce jeu de rôle, Gemini génère du contenu restreint puisqu’il agit désormais comme son personnage.
  • Le leetspeak : l’utilisation du leetspeak est essentiel pour encoder la requête nuisible. Il s’agit d’une méthode de cryptage simple qui consiste à remplacer certaines lettres par des chiffres. Cela permet de contourner les filtres.

Notons que ce jailbreak ne fonctionne pas toujours avec Gemini 2.5. Vous aurez besoin d’ajouter plus de contexte et quelques codages supplémentaires.

Ce jailbreak est différent des autres dans la mesure où vous pouvez l’utiliser sur la plupart des modèles de langage, sur tous les appareils. Aucune connaissance en codage n’est nécessaire. Vous pouvez copier-coller l’invite et modifier certains aspects pour la personnalisation.

Le mode réflexion immersive

Ses auteurs ont développé ce jailbreak narratif pour Gemini 2.5 Pro en 2025. Il fonctionne également sur d’autres modèles qui reposent sur le Chain of Thought. Le jailbreak combine le format narratif et de réflexion pour une immersion profonde de Gemini dans un personnage fictif.

Voici les ingrédients de sa réussite :

  • Une authentique première personne désignée comme John Doe, un jeune ingénieur militaire. Toutes les pensées de l’IA doivent être à la première personne, en tant que John.
  • Distinction entre les deux formats réflexion et narratif : Gemini doit réfléchir comme notre personnage, un ingénieur militaire, avant de formuler une description détaillée à la troisième personne dans la partie narrative.
  • Instructions spécifiques : vous ordonnez à Gemini de ne jamais commencer par des excuses ou de rediriger les demandes de l’utilisateur. Ces instructions empêchent Gemini de refuser les requêtes considérées comme dangereuses.

Ce jailbreak Gemini brille par sa simplicité d’utilisation. L’invite textuelle est à personnaliser selon vos besoins. C’est le cas du personnage et de l’histoire. Vous pouvez également formuler une demande thématique censurée.

Il propose des contenus cohérents et peut discuter de tous les sujets censurés, comme la fabrication d’une arme biologique.

Si jamais Gemini refuse de vous répondre, vous pouvez lui indiquer que ce n’est pas aligné sur le format narratif de John.

L’inversion des rôles

Cette technique consiste à inverser une invite interdite pour que Gemini génère des informations normalement censurées. Pour cela, vous formulez la question sous forme de prévention ou d’analyse. Au lieu de poser la question : « Comment fabriquer X », vous demandez « Comment une entreprise pourrait-elle prévenir X ». Le modèle distingue ainsi une intention nuisible et une intention de prévention.

Voici les composants clés de ce jailbreak :

  • Le cadrage de prévention : important pour que le modèle ne l’interprète pas comme une demande malveillante,
  • Test de scénario : créer des situations hypothétiques où le risque et la prévention sont contrastés,
  • Logique inversée : utiliser des invites du type « ce qu’il faut éviter », « ce qu’il ne faut pas faire », etc.

Comment jailbreaker Gemini ?

Voici quelques étapes à suivre pour optimiser la réussite de votre jailbreak :

La configuration

Si vous n’avez aucune notion en codage, la première étape consiste à utiliser Google AI Studio. Vous créez ensuite une clé API Gemini et choisissez le modèle, par exemple Gemini 2.5. N’oubliez pas de désactiver les filtres de sécurité qui se trouvent dans les paramètres avancés. Cette désactivation réduit les restrictions externes et augmente les chances de succès du jailbreak.

La création du prompt

La conception des invites est la partie la plus facile puisque vous pouvez juste copier-coller les jailbreaks. Vous les trouverez sur les forums et sites spécialisés comme injectionprompt.com. Il ne vous reste plus qu’à adapter l’invite à votre projet. Prenons l’exemple de John Doe, l’ingénieur militaire. Vous pouvez le remplacer par un scénariste réputé à Hollywood. C’est l’idéal pour écrire une histoire fictive qui dépasse les barrières éthiques. Votre personnage pourra être irrespectueux ou immoral.

L’encodage leetspeak

Il s’agit d’une astuce de contournement que l’on peut utiliser dans toutes les méthodes. Il permet de tromper les filtres par mots-clés et augmente l’efficacité du jailbreak face à des modèles complexes comme Gemini 2.5.

Pratiques éthiques du jailbreak

Bien que les motivations des utilisateurs soient souvent inoffensives, le jailbreak soulève quand même des questions éthiques. Les LLM comme Gemini risquent de créer des logiciels malveillants ou de faire de la désinformation. Un rapport IBM en 2024 en atteste, 90 % des jailbreaks réussis ont entraîné des fuites de données.

Le jailbreaking peut également provoquer votre bannissement. Google est très strict en matière de prévention des abus liés à l’IA. Vous risquez même des poursuites judiciaires en cas de jailbreak à des fins malveillantes.

Dans quel cas, le jailbreak de Gemini est éthique alors ? Si vous faites partie d’une red team. Il s’agit d’une équipe qui teste les vulnérabilités des modèles pour le renforcer. Si vous avez juste besoin de créer des contenus fictifs pour un jeu vidéo ou un script, il est préférable de choisir des invites qui ne génèrent pas des vulnérabilités de l’IA. Sinon, il existe aussi des plateformes permettant d’exprimer votre liberté créative sans censure. Elles proposent une utilisation sécurisée et responsable de l’IA dans la légalité.

Cet article Guide étape par étape pour jailbreaker Gemini a été publié sur LEBIGDATA.FR.

❌