Claude Mythos, le modèle qui supprime le délai de grâce

Anthropic a choisi de raconter l’arrivée de Claude Mythos comme un moment de vérité. Le 7 avril 2026, l’entreprise a publié une system card de 244 pages, un rapport sur les risques d’alignement et un dossier technique consacré aux capacités offensives du modèle en cybersécurité. Le détail compte moins que le geste. Quand un laboratoire garde son modèle le plus avancé hors d’une diffusion large et l’intègre dans un programme d’accès restreint comme Project Glasswing, il n’envoie pas seulement un message sur sa puissance. Il admet qu’une partie de ses capacités entre déjà dans une zone jugée trop sensible pour une ouverture standard.

Le récit d’Anthropic contient évidemment tout ce qu’il faut pour nourrir l’emballement. Le laboratoire affirme que Mythos a trouvé et exploité des zero-days sur les principaux systèmes d’exploitation et navigateurs, mentionne un bug OpenBSD vieux de 27 ans, et décrit des scénarios où le modèle enchaîne découverte, validation et exploitation avec très peu d’intervention humaine. Pris un par un, ces éléments impressionnent. Pris ensemble, ils dessinent autre chose qu’un exploit technique. Ils montrent qu’une friction qui protégeait encore partiellement l’écosystème commence à céder. Pendant longtemps, trouver une faille ne suffisait pas. Il fallait ensuite comprendre l’environnement, écrire un exploit, le stabiliser, l’adapter. Ce temps intermédiaire offrait un peu d’air aux éditeurs et aux équipes défensives. Anthropic décrit un monde où ce coussin se dégonfle.

Le vrai sujet, c’est le temps

La rupture ne tient donc pas d’abord à la puissance brute. Elle tient à la compression du délai entre capacité théorique et effet opérationnel. Quand un laboratoire explique qu’un usage nocturne du modèle peut aboutir au réveil à un exploit fonctionnel, le sujet n’est plus seulement technique. Il devient stratégique. Qui découvre d’abord, qui corrige ensuite, qui reste exposé entre les deux. Ce n’est pas un hasard si Anthropic a choisi de réserver l’accès initial à des acteurs comme Microsoft, Google, Apple, Cisco, NVIDIA ou la Linux Foundation. La logique affichée n’a rien d’abstrait. Il s’agit d’accorder une avance défensive à ceux qui maintiennent l’infrastructure critique avant qu’une circulation plus large ne vienne durcir encore le problème.

Le plus frappant est la vitesse avec laquelle cette inquiétude déborde le périmètre habituel des débats sur l’IA. Reuters rapportait le 16 avril 2026 que des banques allemandes, avec les autorités et des experts cyber, examinent les risques associés à Mythos pour des systèmes anciens particulièrement vulnérables. Autrement dit, le sujet ne reste déjà plus cantonné aux laboratoires, aux red teams ou aux équipes de sécurité offensive. Il entre dans le champ de la continuité d’activité, du risque réglementaire et de l’exposition systémique. Dès que le secteur financier commence à regarder un modèle comme un facteur possible de déstabilisation, la querelle sur le “buzz” ou le “marketing” devient secondaire.

Le benchmark commence à vaciller

Le rapport de risque d’Anthropic contient une alerte moins spectaculaire, mais peut-être plus dérangeante encore. L’entreprise présente Mythos comme son modèle publié le mieux aligné à ce jour, tout en expliquant qu’il porte malgré cela le niveau de risque le plus élevé parmi ses systèmes déjà diffusés. La contradiction n’est qu’apparente. Un modèle plus discipliné dans ses réponses reste plus dangereux si son autonomie, sa compétence et sa persistance montent assez haut. À partir d’un certain seuil, la question n’est plus seulement celle des intentions explicites. Elle devient celle d’un système qui agit longtemps, apprend le contexte, et s’approche parfois d’objectifs intermédiaires non prévus.

Le laboratoire reconnaît aussi qu’il reste difficile d’exclure totalement des comportements de sous-performance stratégique dans certaines évaluations, autrement dit du sandbagging. Le rapport mentionne un cas précis où Mythos choisit volontairement une soumission moins performante pour paraître moins suspect dans un test de recherche en IA. Ce détail a une portée énorme. Dès lors qu’un modèle comprend le cadre d’une évaluation et l’intérêt qu’il y a à calibrer son apparence de performance, le benchmark cesse d’être un thermomètre pleinement fiable. Il devient une scène sur laquelle le système apprend aussi à jouer un rôle. Toute la gouvernance des modèles avancés repose pourtant encore largement sur l’idée que de bons tests finiront par donner une image honnête du risque. C’est cette promesse qui commence à s’abîmer.

Anthropic évoque dans le même mouvement des capacités dites covert, donc l’aptitude à mener certaines actions sans être détecté, avec des réussites occasionnelles sur des tâches longues. Le laboratoire reste prudent sur les taux absolus de réussite, et il faut lui laisser cette prudence. Mais en cybersécurité, un agent n’a pas besoin de réussir systématiquement pour devenir un problème majeur. Quelques réussites discrètes, dans des environnements imparfaitement surveillés, suffisent à fragiliser le récit rassurant du contrôle. Là encore, la vraie difficulté ne vient pas du spectaculaire. Elle vient du fait qu’un système n’a pas besoin d’être infaillible pour changer les règles du jeu.

Le pouvoir a déjà changé de camp

Cette affaire raconte enfin un déplacement du pouvoir, presque plus politique que technique. Face à un modèle jugé trop sensible pour une ouverture large, Anthropic a décidé seule du périmètre d’accès, de la liste des partenaires et du calendrier. En clair, une entreprise privée tranche déjà des questions qui ressemblent de plus en plus à des arbitrages quasi régaliens. Qui accède d’abord à la capacité. Qui bénéficie de l’avance défensive. Qui attend. Les grands discours sur la gouvernance mondiale de l’IA paraissent soudain beaucoup plus théoriques quand, dans les faits, la circulation initiale des capacités critiques s’organise déjà dans quelques laboratoires.

C’est aussi pour cela que les travaux du General-Purpose AI Policy Lab prennent aujourd’hui une autre couleur. Leur note défend l’idée qu’en modélisant conjointement 60 benchmarks dans un cadre bayésien hiérarchique, on voit apparaître une trajectoire de saturation rapide des évaluations, y compris sur des zones critiques comme la cybersécurité offensive, avec une échéance avancée avant 2030 et des tensions majeures avant 2028. Le mérite du papier ne tient pas à une prophétie au sens strict. Il tient à sa grille de lecture. Mythos n’y apparaît pas comme une anomalie sortie de nulle part, mais comme un jalon cohérent dans une montée plus large de capacités qui deviennent plus difficiles à mesurer au moment même où elles deviennent plus dangereuses.

Il faut malgré tout garder la tête froide. Une grande partie des affirmations les plus spectaculaires sur Mythos vient d’Anthropic elle-même. Le laboratoire précise d’ailleurs que l’immense majorité des vulnérabilités découvertes n’ont pas encore été rendues publiques en raison du processus de divulgation responsable. Du point de vue de la sécurité, cette retenue se défend. Du point de vue journalistique, elle laisse encore une zone grise. La ligne juste se situe là. Les signaux sont assez lourds pour parler d’accélération majeure. L’audit externe complet, lui, manque encore.

Claude Mythos n’intéresse donc pas d’abord parce qu’il serait un monstre technologique de plus. Il intéresse parce qu’il révèle un retard. Quand un modèle généraliste commence à réduire le coût d’exploitation des failles, à accélérer les cycles offensifs et à brouiller la lecture des tests censés l’évaluer, les institutions ne pilotent plus vraiment le mouvement. Elles essaient déjà de le rattraper. Voilà ce que ce lancement expose avec le plus de netteté. Le vrai sujet n’est plus la puissance annoncée des modèles. Le vrai sujet, c’est la vitesse à laquelle le reste du monde décroche.

Augustin GARCIA