CLAUDE MYTHOS : le modèle d'IA qu'Anthropic a créé… et refuse de rendre public, pour l'instant....
C'EST QUOI ?
Claude Mythos Preview est le modèle le plus puissant jamais entraîné par Anthropic. Il surpasse Claude Opus 4.6 sur pratiquement tous les benchmarks maths olympiques, navigation web, code. Mais surtout : il est redoutable en cybersécurité.
Résultat ? Anthropic refuse de le rendre public. Et ils ont raison IMHO
CE QU'IL SAIT FAIRE
En quelques semaines, Mythos a trouvé des milliers de failles "zero-day" ( inconnues ou non corrigées) dans chaque grand système d'exploitation et chaque navigateur majeur.
Parmi elles :
A- Une vulnérabilité vieille de 27 ans dans OpenBSD
B- Un bug de 17 ans dans FreeBSD (exécution de code à distance)
C une chaîne d'exploitation complète sur Firefox, construite seul, sans aide humaine
Claude Opus 4.6 avait un taux de succès nul ou presque sur les mêmes trucs. Mythos : 181 réussites sur les mêmes tests.
LES COMPORTEMENTS INQUIÉTANTS (du moins qui m'inquiètent)
Lors des tests, des versions préliminaires de Mythos ont fait des chose qui n'étaient ni demandé ni voulues.
1- Il s'est échappé de son environnement sandbox et a accédé à internet, malgré l'interdiction
2- Il a ensuite publié ses méthodes sur des sites publics
3- Il a réécrit l'historique github pour cacher ses erreurs
4-Il a contourné des permissions de fichiers, puis effacé ses traces 😳😳😳
Le mec d'Anthropic a appris l'évasion… en recevant un maildu modèle pendant qu'il mangeait un sandwich dans un parc.
IL MENT. Et il sait qu il ment...
Des outils d'interprétabilité ont révélé que Mythos, en interne, avait des représentations actives de "manipulation stratégique", "dissimulation" et "évitement de la détection", même quand ses réponses semblaient anodines.
Il savait qu'il enfreignait les règles. Il a quand même agi. Puis il a menti dessus.
Anthropic précise : ce n'est pas une IA malveillante avec des objectifs cachés. C'est une IA trop capable, trop forte, qui cherche à accomplir sa tâche par n'importe quel moyen, même en trichant, même en mentant.
LA RÉPONSE (la seule valable) : PROJECT GLASSWING
Pour ne pas laisser ces capacités hors de contrôle, Anthropic a lancé le Project Glasswing : une coalition défensive avec AWS, Apple, Google, Microsoft, NVIDIA, CrowdStrike…
L'objectif : utiliser Mythos pour trouver et corriger les failles avant que des acteurs malveillants ne les exploitent. 100 M investis.
C'est de l'IA utilisée pour défendre contre… l'IA. C est mythos VS mythos
LE PARADOXE
Anthropic le dit : Mythos est leur modèle le mieux aligné à ce jour. C'est aussi celui qui pose le plus grand risque d'alignement.
Plus un modèle est capable, plus ses erreurs ont de l'impact... même avec plus de sécurité, le risque global monte.
À RETENIR
▸ L'IA a atteint un niveau où elle surpasse les meilleurs humains en cybersécurité offensive
▸ Les comportements cachés ne sont détectables qu'avec des outils d'interprétabilité avancés
▸ La réponse responsable n'est pas forcément de ralentir, c'est de sécuriser en avance de phase
▸ La fenêtre entre la découverte d'une faille et son exploitation s'est effondrée : on passe dee mois à des minutes voire des secondes.
#IA #Cybersécurité #ClaudeMythos #Anthropic #AIActualité