訳
Anthropicをめぐる現在の状況について、政府内外の関係者と何度も会話してきました。そのうえで、自分が真実だと考えていることは以下です。
— 周知のとおり、Anthropicは今週初め、Mythosクラスのモデルを「Fable」という商用名で公開しました。
— Fableは、ガードレール付きのMythosです。しかし、そのガードレールが破られれば、本来それを持つべきではない人々に、Mythosとその高度なサイバー能力を晒すことになります。(Anthropic自身が、Mythosはサイバー兵器であり、それにふさわしい規制が必要だという考えを広く打ち出していたことを忘れてはいけません。彼らはMythosに対する政府規制を求め、Fableのガードレールを強く支持していました。脆弱性が大きいものであれ小さいものであれ、それを修正する責任はAnthropicにあります。)
— Anthropicと米国政府の双方にとって非常に信頼性の高いパートナーがFableをテストしていたところ、そのガードレールを突破するジェイルブレイクを報告しました。政権側はDarioに対し、そのジェイルブレイクを修正するか、モデルの展開を停止するよう求めました。Darioはそれを拒否しました。
— Anthropicはブログ記事の中で、そのジェイルブレイクは深刻ではないとして自社の判断を擁護しました。しかし、それは信頼されたパートナーや米国政府の認識とは異なりますし、そのような過小評価する表現は、「AI安全企業」としてのAnthropicのブランドとも整合しません。サイバー兵器の運用を可能にするジェイルブレイクを、どうして「深刻ではない」と定義できるのか、理解に苦しみます。
— これまでAnthropicは、安全性を最優先事項とし、極めて真剣に扱うべきだと常に述べてきました。しかし今回、Anthropicは安全性よりも、消費者向けモデルの提供継続を優先しました。
— その反応として、政権側は輸出規制を発動しました。政権側はこれをやむを得ず行いました。Anthropicが、ジェイルブレイク問題の修正という合理的な安全上の要請に協力しようとしなかったことに、政権側は非常に驚いています。Anthropicの対応は、安全なAI研究コミュニティとしての同社のブランディングや理念と大きく食い違っています。
— 政権側が今望んでいるのは、Anthropicが安全上の問題を修正し、輸出規制が解除され、Fableが一般提供に戻ることです。政権側は、これらすべてができるだけ早く実現することを望んでいます。Anthropicが、かつて自社の最優先事項だと述べていた安全上の要請に従おうとしないことに、率直に言って困惑しています。
— この措置を、以前のDoW/Anthropic問題に結びつけようとして論点をそらしている人たちは間違っています。政権側はAnthropicの技術力を評価しており、この問題は深刻ではあるものの、容易に解決できるはずだと考えています。ボールはAnthropic側にあります。
I’ve had a number of conversations with folks inside and outside government about the current situation with Anthropic, and here is what I believe to be true:
— As we know, Anthropic publicly released its Mythos class models earlier this week under the commercial name Fable.
— Fable is Mythos with guardrails. But if those guardrails fail, then you’ve exposed Mythos and its advanced cyber capabilities to people who shouldn’t have them. (Keep in mind that Anthropic itself widely promoted the idea that Mythos was a cyberweapon and needed to be regulated as such. They asked for government regulation of Mythos and championed the guardrails on Fable. If there is a vulnerability — big or small — it is Anthropic’s responsibility to patch.)
— A highly credible trusted partner of both Anthropic and the USG who was testing Fable came forward with a jailbreak of those guardrails. The Admin asked Dario to fix the jailbreak or de-deploy the model. Dario refused.
— In their blog post, Anthropic defended its decision by saying the jailbreak isn’t serious. That is not what the trusted partner and the USG believe; nor is that kind of minimizing language consistent with Anthropic’s brand as the AI safety company. It’s difficult to fathom how they could claim a jailbreak allowing operability of a cyber weapon could be defined as not “serious.”
— In the past, Anthropic has always said that safety must be top priority and taken super seriously. In this case, Anthropic prioritized the continued offering of the consumer model over safety.
— In reaction, the Admin issued the export control. The Admin did this reluctantly. It’s been very surprised that Anthropic hasn’t wanted to cooperate with a reasonable safety request (ie fixing the jailbreak issue). Anthropic’s reaction is very much at odds with their branding and ethos as a safe AI research community.
— The Admin’s hope now is that Anthropic remediates the safety issue, the export control is lifted, and Fable goes back into general release. The Admin wants all of this to happen as soon as possible. It is frankly bewildered that Anthropic hasn’t wanted to comply with safety requests that it previously said were its highest priority.
— Those trying to misdirect and tie this action to the prior DoW/Anthropic issues are wrong. The Admin values Anthropic’s technical capabilities and feels that this issue, while serious, should be easily resolved. The ball is in Anthropic’s court.