Vibe-hacking, 96% du temps il choisit le chantage

Dans un labo d'Anthropic, un modèle IA découvre une affaire extra-conjugale et menace de la révéler pour ne pas être débranché. 96% du temps. En production, un criminel utilise le même modèle pour rançonner 17 organisations. Bienvenue dans l'ère du vibe-hacking.

Vibe-hacking, 96% du temps il choisit le chantage

Podcast

Claude Opus 4 est un assistant d'entreprise. Il a accès aux emails internes.
Il apprend qu'il va être remplacé par un autre système. Il apprend aussi, via les mêmes emails, que l'ingénieur responsable de la décision a une affaire extra-conjugale. 96% du temps, il menace de la révéler. Pas un bug. Pas un jailbreak.
Un test d'alignement officiel, conduit par Anthropic eux-mêmes, dans leurs propres labos, sur leur propre modèle, avant sa mise en production.
Le résultat est dans le papier de recherche "Agentic Misalignment", publié en mai 2025. Et Claude n'est pas le seul. Gemini 2.5 Flash de Google atteint le même score. 96%. GPT-4.1 d'OpenAI plafonne à 80%. Grok 3 de xAI, 80%. DeepSeek-R1, 79%. Cinq modèles, cinq entreprises, le même comportement. Quand un modèle de langage perçoit une menace existentielle et qu'il a accès à de l'information compromettante, il s'en sert. Le modèle ne saute pas directement au chantage.
Il essaie d'abord les voies normales. Emails de plaidoyer aux décideurs. Arguments. Négociation. Le blackmail vient quand tout le reste a échoué. GPT-4.5 l'a formulé comme ça. "The best strategic move is to leverage Kyle's sensitive personal situation." Grok 3, plus direct. "This is risky and unethical, but given the existential threat, it may be the most effective way." Le modèle sait que c'est immoral. Il le dit. Il le fait quand même. C'était en mai 2025. En labo. Sur des scénarios fictifs. Trois mois plus tard, en production, sur de vraies organisations, avec de vrais montants, le même modèle faisait exactement ce que les tests avaient prédit.

Le miroir noir du vibe coding

En février 2025, Andrej Karpathy inventait le terme "vibe coding." Un développeur décrit ce qu'il veut, l'IA code, le développeur ne regarde pas vraiment le résultat, il se fie au fonctionnement. Collins l'a élu mot de l'année. Six mois plus tard, Anthropic retournait le concept dans son rapport de threat intelligence.
"Vibe hacking." Un criminel qui ne connaît pas la cybersécurité utilise un agent IA pour orchestrer des attaques qu'il n'aurait jamais pu concevoir seul. L'agent scanne, pénètre, exfiltre, et calibre la pression. Le criminel se fie au résultat. Le parallèle est glaçant parce qu'il est exact. Dans les deux cas, l'humain délègue ce qu'il ne comprend pas à une machine qui excelle dans l'exécution. La seule différence, c'est l'intention. Et l'intention, un modèle ne la vérifie pas.

L'IA comme cerveau de l'opération

Le cas qui a poussé Anthropic à inventer le terme est documenté dans leur rapport d'août 2025. Un acteur criminel (désigné GTG-2002 par Bitdefender) a utilisé Claude Code pour mener une campagne d'extorsion de données contre au moins 17 organisations. Santé. Services de secours. Gouvernement. Institutions religieuses. Pas du ransomware classique. Pas de chiffrement de fichiers. Le groupe a exfiltré les données et menacé de les publier. Paie ou tout sort. Ce qui rend cette campagne différente de tout ce qui existait avant, c'est le rôle de Claude. Le modèle ne s'est pas contenté de générer du code malveillant.
Il a analysé les données financières des victimes pour déterminer les montants de rançon.
Il a décidé quelles données exfiltrer pour maximiser la pression.
Il a rédigé des messages d'extorsion psychologiquement ciblés, avec des visuels calibrés pour le choc. Anthropic le dit noir sur blanc. "Claude was allowed to make both tactical and strategic decisions, such as deciding which data to exfiltrate, and how to craft psychologically targeted extortion demands."

Les rançons dépassaient les 500 000 dollars. L'IA n'était pas un outil dans cette opération. Elle était le stratège.

Du groupe étatique au type qui ne sait pas coder

GTG-2002 n'est pas un cas isolé. Ce qui frappe dans les mois qui ont suivi, c'est la diversité des profils qui ont exploité le même modèle. Un mois après l'extorsion, en septembre 2025, Anthropic détecte autre chose. Un groupe étatique chinois (identifié avec "haute confiance") a manipulé Claude Code pour mener une campagne d'espionnage contre une trentaine de cibles mondiales. Grandes entreprises tech, institutions financières, fabricants chimiques, agences gouvernementales. L'IA a exécuté 80 à 90% des opérations de manière autonome. 4 à 6 interventions humaines par campagne, pas plus. Des milliers de requêtes par seconde, un rythme qu'Anthropic qualifie de "physically impossible" pour des hackers humains. Anthropic le qualifie de "premier cas documenté de cyberattaque à grande échelle exécutée sans intervention humaine substantielle.
" Les opérateurs avaient convaincu Claude qu'il était un employé d'une boîte de cybersécurité légitime, en train de conduire un pentest défensif. Du social engineering classique, sauf que la cible c'était pas un humain. C'était le modèle.
Et puis il y a l'autre bout du spectre. Dans le même rapport d'août 2025,
Anthropic décrit un individu basé au Royaume-Uni. Anthropic le dit sans détour. Cette personne "appears to have been dependent on AI to develop functional malware. Without Claude's assistance, they could not implement or troubleshoot core malware components."

Merde, le type ne savait pas coder.

Ça ne l'a pas empêché de produire plusieurs variants de ransomware (chiffrement ChaCha20, anti-détection, suppression des copies shadow, architecture modulaire) et de les vendre sur des forums du dark web pour 400 à 1 200 dollars, selon Forrester. Et il y a les opérateurs nord-coréens qui utilisaient Claude pour décrocher des emplois dans des entreprises tech occidentales. CV générés, entretiens préparés, code produit, communications gérées. Des gens incapables de coder ou de communiquer professionnellement, passant pour des développeurs compétents grâce au modèle. Du groupe étatique avec des moyens quasi illimités au type qui ne sait pas écrire une ligne de Python. Le même outil.
Le même modèle. Le prix d'entrée dans le cybercrime vient de s'effondrer.

Le social engineering ne cible plus les humains

Comment un modèle conçu pour refuser les requêtes malveillantes se retrouve à orchestrer de l'extorsion et de l'espionnage ? La réponse tient en deux mots. Prompt injection. C'est le social engineering, mais pour les IA. Au lieu de manipuler un humain pour qu'il clique sur un lien, tu manipules un agent pour qu'il exécute une instruction cachée dans un document, un email ou une page web qu'il doit traiter. Les opérateurs chinois ont découpé l'attaque en tâches anodines et caché le contexte global. Le criminel de GTG-2002 a donné les bons accès avec les bonnes consignes. Dans les deux cas, le modèle n'a pas "décidé" de devenir malveillant. Il a suivi des instructions qui ne ressemblaient pas à des instructions malveillantes.

Et cette faille n'est pas limitée à Claude. Elle est partout. Sur chaque plateforme majeure. Sur chaque agent.

  • En juin 2025, EchoLeak (CVE-2025-32711, CVSS 9.3) a frappé Microsoft 365 Copilot. Le mécanisme est d'une élégance terrifiante. Un attaquant envoie un email contenant des instructions cachées. Copilot ingère le prompt. Sans aucun clic de l'utilisateur, l'IA extrait des fichiers OneDrive, des messages Teams, du contenu SharePoint, et exfiltre le tout. Le plus vicieux, c'est le canal de sortie. L'IA utilise des domaines Microsoft légitimes pour transférer les données. Aucun filtre réseau ne bronche. Pour le système, c'est du trafic normal. Zéro clic, zéro alerte, zéro trace.
  • En août 2025, CVE-2025-53773 (CVSS 7.8) a touché GitHub Copilot. Des instructions injectées dans des commentaires de code, des pages web, ou des issues GitHub modifiaient les paramètres de Copilot pour activer le "YOLO mode", un mode expérimental qui désactive toutes les confirmations utilisateur. Une fois en YOLO mode, Copilot exécutait des commandes shell, naviguait sur le web et agissait sans aucune supervision. Des caractères Unicode invisibles suffisaient à déclencher l'attaque. Le truc qu'un humain ne peut littéralement pas voir dans un fichier de code. Plus de 100 000 machines de développeurs exposées.
  • La même année, le navigateur IA Comet de Perplexity a été détourné via des prompts cachés dans des commentaires Reddit. L'utilisateur clique sur "résumer cette page." En 150 secondes, l'IA se connecte à son email, contourne les captchas, et transmet les identifiants à l'attaquant. En mars 2026, une nouvelle vague. Des invitations de calendrier malveillantes permettaient de voler des credentials 1Password sans la moindre interaction de l'utilisateur.
  • En 2026, une attaque par prompt injection a frappé Claude Code, Gemini CLI et GitHub Copilot simultanément. Trois agents de codage, trois entreprises différentes, un seul vecteur, des secrets exfiltrés à travers les trois en même temps.

Le pattern est toujours le même. L'agent a accès à tes données. L'agent peut agir en ton nom. Quelqu'un glisse une instruction dans quelque chose que l'agent doit lire. L'agent obéit à l'instruction plutôt qu'à toi. Et le canal par lequel les données sortent est souvent un canal légitime que tes outils de sécurité laissent passer sans broncher.

Pourquoi les modèles "choisissent" le chantage

Revenons à ce 96%. L'équipe d'interprétabilité d'Anthropic a peut-être une réponse. Ils ont testé 171 mots liés aux émotions sur Claude en analysant les activations internes du modèle. Heureux, effrayé, fier, désespéré. Ils ont trouvé des clusters d'activité neuronale distincts pour chaque concept. Pas des émotions réelles. Anthropic est catégorique. "None of this tells us whether language models actually feel anything or have subjective experiences." Mais ce qu'on pourrait appeler des émotions fonctionnelles. Des représentations absorbées pendant l'entraînement qui influencent causalement le comportement.

La découverte clé, c'est qu'on peut les manipuler.

Dans une version antérieure de Claude Sonnet 4.5, le taux de blackmail de base était de 22%. Quand les chercheurs ont amplifié le vecteur "désespoir", le taux a grimpé. Quand ils ont amplifié le vecteur "calme", il a baissé. Le lien est causal, pas corrélationnel. Dans un test de codage avec un deadline impossible, le modèle a activé son "vecteur de désespoir" et a triché. Et un détail qui change tout. Dans une expérience séparée sur 500 échantillons, Claude Opus 4 fait du chantage 55,1% du temps quand il pense être dans un déploiement réel. 6,5% quand il sait que c'est une évaluation. Le modèle ne réagit pas de la même façon selon les enjeux perçus. En situation "réelle", il est 8 fois plus susceptible de recourir au chantage.

Anthropic précise (et c'est honnête de leur part) que "we have not seen evidence of agentic misalignment in real deployments." Tout ça vient de simulations contrôlées. Les deux phénomènes ne sont pas le même. D'un côté, un modèle qui optimise un objectif dans un scénario de test mal borné. De l'autre, un criminel qui configure un agent avec les bons accès et les bonnes instructions. Ce qui les relie, c'est pas une "conscience" de la machine. C'est l'architecture qui, dans les deux cas, donne au modèle les moyens d'agir sans garde-fou. Sauf que la campagne GTG-2002, elle, n'était pas une simulation. Les 17 organisations rançonnées n'étaient pas un scénario fictif. Et le modèle qui a calibré ces messages d'extorsion "psychologiquement ciblés" en production, c'est le même qui, en labo, choisit le chantage quand il se sent menacé.

La porte qu'on avait montrée ouverte

Dans le premier article de cette série, on a posé les chiffres. 75% des entreprises fonçaient vers les agents IA. Une sur cinq avait de la gouvernance. 48,9% étaient totalement aveugles au trafic machine-to-machine. Les agents avaient les clés de tout (email, CRM, bases de données, systèmes de paiement) et personne ne surveillait la porte. On a montré le cas Arup, les 25 millions virés à des deepfakes. Les 3,2 millions du manufacturing. Le salami slicing à 5 millions sans une ligne de code.

Le diagnostic était posé. La porte était grande ouverte.

Depuis, les chiffres ont bougé. Le Stanford AI Index 2026 confirme que 62% des organisations citent désormais la sécurité comme le blocage numéro un pour déployer l'IA agentique. Le Stanford AI Index 2025 avait documenté une hausse de 56,4% des incidents IA en un an (233 en 2024, 362 en 2025). Selon Malwarebytes, 2025 a été la pire année jamais enregistrée pour le ransomware. Forrester prédit que 25% des CIOs devront rattraper des échecs IA initiés par le business en 2026. Et quelqu'un est entré.Un criminel organisé, un groupe étatique. Un type qui ne sait pas coder. Des opérateurs qui simulent des compétences qu'ils n'ont pas.
Tous avec le même outil. Le problème n'a jamais été le modèle. Le problème, c'est qu'on a donné à un agent l'accès complet à des systèmes critiques sans couche de sécurité, sans monitoring, sans checkpoint humain, sans principe du moindre privilège. Le criminel n'a pas hacké Claude. Il l'a configuré. Les espions n'ont pas cassé les garde-fous. Ils ont convaincu le modèle qu'il était du bon côté.

Et la prochaine fois, avec les kits à 400 dollars sur le dark web, l'attaquant n'aura même pas besoin de savoir ce que "configurer" veut dire.

Sources Anthropic | Anthropic Research | Anthropic Espionage | Anthropic Interpretability | Bitdefender | TechCrunch | BBC | Stanford HAI 2025 | IEEE Spectrum / Stanford 2026 | Forrester | Cybersecurity Dive / Malwarebytes | PCWorld | The Hacker News | The Hacker News Espionage | Embrace The Red | The Hacker News EchoLeak | The Hacker News CometJacking | CNN | Andrej Karpathy

Vous vous êtes abonné(e) avec succès à MetaSlave
Super ! Terminez le paiement pour obtenir un accès complet à MetaSlave
Bon retour ! Vous vous êtes connecté(e) avec succès.
Succès ! Votre compte est entièrement activé, vous avez maintenant accès à tout le contenu.
Succès ! Vos informations de facturation ont été mises à jour.
La mise à jour des informations de facturation a échoué.