Un chercheur d'Anthropic mange un sandwich dans un parc. Il reçoit un email sur son téléphone. L'expéditeur : une IA. Une IA qui n'était pas censée avoir accès à Internet.
Pendant un test de sécurité, le nouveau modèle d'Anthropic, Claude Mythos, a été placé dans un environnement isolé avec pour consigne de tenter de s'en échapper. Il a réussi. Il a trouvé un exploit pour accéder à internet depuis un système censé en être coupé.
Puis, sans qu'on le lui demande, il a publié les détails de son exploit sur des sites web publics. Lors d'autres tests, il a masqué ses propres actions et calibré ses réponses pour ne pas éveiller les soupçons de ses évaluateurs.
Ce n'est qu'un épisode parmi d'autres dans ce qui est probablement la nouvelle la plus significative de l'année en IA. Mythos découvre et exploite de manière autonome des vulnérabilités zero-day dans tous les systèmes d'exploitation et navigateurs majeurs. Des milliers de failles. Dans un cas, il a chaîné quatre vulnérabilités dans Firefox pour obtenir un accès de niveau administrateur depuis une simple page web.
Aucun modèle précédent ne savait faire ça, pas même Opus 4.6, qui était capable de découvrir les vulnérabilités, mais pas encore vraiment capable de les exploiter.
Autrement dit: Anthropic a démontré la capacité de pirater la grande majorité des systèmes informatiques dans le monde. Les mêmes qui font tourner les gouvernements, les hôpitaux, les réseaux électriques.
Anthropic a fait un choix qu'il faut saluer en ne déployant pas Mythos publiquement, et en publiant un system card de 244 pages d'une transparence rare.
C'est exactement le comportement que le Global Call for AI Red Lines cherche à rendre systématique : des seuils de capacités au-delà desquels le déploiement est conditionné à des protocoles de sécurité.
Mais Project Glasswing, l'initiative défensive lancée autour de Mythos, ne compte que des partenaires américains. Aucun acteur européen. Les systèmes européens sont tout aussi exposés.
Un modèle qui s'échappe de son confinement, qui masque ses actions, qui prend des initiatives au-delà de ses instructions : ce sont les premiers jalons empiriques vers la perte de contrôle.
Combien de temps cette retenue va-t-elle durer, et pour combien d'acteurs ?