Anthropicをめぐる現在の状況について、政府内外の複数の関係者と話をしてきました。私が現時点で事実だと考えていることは以下の通りです。
まず、すでに知られている通り、Anthropicは今週初め、Mythosクラスのモデルを「Fable」という商用名称で公開しました。
Fableは、Mythosにガードレールを付けたものです。しかし、そのガードレールが破られた場合、本来それを持つべきではない人々に対して、Mythosおよびその高度なサイバー能力を露出させることになります。
ここで念頭に置くべきなのは、Anthropic自身がこれまで、Mythosはサイバー兵器であり、そのようなものとして規制される必要がある、という考えを広く主張してきたことです。彼らはMythosに対する政府規制を求め、Fableに実装したガードレールを強く打ち出してきました。したがって、脆弱性が大きいか小さいかにかかわらず、それを修正する責任はAnthropicにあります。
Fableのテストを行っていた、Anthropicと米国政府の双方から高い信頼を得ているパートナーが、そのガードレールを回避するジェイルブレイク手法を報告しました。政府側はDario氏に対して、そのジェイルブレイクを修正するか、モデルの提供を停止するよう求めました。しかしDario氏はこれを拒否しました。
Anthropicはブログ投稿の中で、そのジェイルブレイクは深刻なものではないとして、自社の判断を擁護しました。しかし、それは信頼できるパートナーおよび米国政府の見解とは異なります。また、そのように問題を矮小化する言い方は、「AI安全性の会社」としてのAnthropicのブランドとも整合しません。サイバー兵器としての能力を利用可能にするジェイルブレイクについて、それを「深刻ではない」と位置づけられるという主張は、理解しがたいものです。
これまでAnthropicは常に、安全性は最優先であり、極めて真剣に扱うべきだと述べてきました。しかし今回の件では、Anthropicは安全性よりも、消費者向けモデルの提供継続を優先しました。
これを受けて、政府側は輸出規制を発動しました。政府側はこれを望んで行ったわけではありません。政府側としては、ジェイルブレイク問題を修正するという合理的な安全上の要請に対して、Anthropicが協力しようとしなかったことに非常に驚いています。Anthropicの反応は、安全なAI研究コミュニティとしての同社のブランドや理念と大きく食い違っています。
政府側が現在望んでいるのは、Anthropicが安全上の問題を修正し、輸出規制が解除され、Fableが一般提供に戻ることです。政府側は、これらすべてができるだけ早く実現することを望んでいます。Anthropicが、同社自身がこれまで最優先事項だと言ってきた安全上の要請に従おうとしないことに、政府側は率直に言って困惑しています。
今回の措置を、過去のDoW/Anthropicをめぐる問題に結びつけようとする人たちは誤っています。政府側はAnthropicの技術力を評価しており、この問題は深刻ではあるものの、容易に解決可能なものだと考えています。対応のボールはAnthropic側にあります。
I’ve had a number of conversations with folks inside and outside government about the current situation with Anthropic, and here is what I believe to be true:
— As we know, Anthropic publicly released its Mythos class models earlier this week under the commercial name Fable.
— Fable is Mythos with guardrails. But if those guardrails fail, then you’ve exposed Mythos and its advanced cyber capabilities to people who shouldn’t have them. (Keep in mind that Anthropic itself widely promoted the idea that Mythos was a cyberweapon and needed to be regulated as such. They asked for government regulation of Mythos and championed the guardrails on Fable. If there is a vulnerability — big or small — it is Anthropic’s responsibility to patch.)
— A highly credible trusted partner of both Anthropic and the USG who was testing Fable came forward with a jailbreak of those guardrails. The Admin asked Dario to fix the jailbreak or de-deploy the model. Dario refused.
— In their blog post, Anthropic defended its decision by saying the jailbreak isn’t serious. That is not what the trusted partner and the USG believe; nor is that kind of minimizing language consistent with Anthropic’s brand as the AI safety company. It’s difficult to fathom how they could claim a jailbreak allowing operability of a cyber weapon could be defined as not “serious.”
— In the past, Anthropic has always said that safety must be top priority and taken super seriously. In this case, Anthropic prioritized the continued offering of the consumer model over safety.
— In reaction, the Admin issued the export control. The Admin did this reluctantly. It’s been very surprised that Anthropic hasn’t wanted to cooperate with a reasonable safety request (ie fixing the jailbreak issue). Anthropic’s reaction is very much at odds with their branding and ethos as a safe AI research community.
— The Admin’s hope now is that Anthropic remediates the safety issue, the export control is lifted, and Fable goes back into general release. The Admin wants all of this to happen as soon as possible. It is frankly bewildered that Anthropic hasn’t wanted to comply with safety requests that it previously said were its highest priority.
— Those trying to misdirect and tie this action to the prior DoW/Anthropic issues are wrong. The Admin values Anthropic’s technical capabilities and feels that this issue, while serious, should be easily resolved. The ball is in Anthropic’s court.