데이비드 삭스: 저는 Anthropic의 현재 상황에 대해 정부 안팎의 여러 사람들과 대화를 나눴고, 제가 사실이라고 믿는 내용은 다음과 같습니다.
— 알려진 것처럼, Anthropic은 이번 주 초 Mythos급 모델을 Fable이라는 상업용 이름으로 공개 출시했습니다.
— Fable은 가드레일이 적용된 Mythos입니다. 하지만 그 가드레일이 실패한다면, Mythos와 그 고도화된 사이버 역량이 접근해서는 안 되는 사람들에게 노출되는 것입니다. Anthropic 스스로 Mythos를 사이버 무기로 규정하고, 그런 식으로 규제되어야 한다는 주장을 널리 홍보했다는 점을 기억해야 합니다. 그들은 Mythos에 대한 정부 규제를 요구했고, Fable의 가드레일을 적극 옹호했습니다. 취약점이 크든 작든, 이를 패치하는 것은 Anthropic의 책임입니다.
— Anthropic과 미국 정부 양쪽 모두가 신뢰하는 매우 신뢰도 높은 파트너가 Fable을 테스트하던 중, 해당 가드레일을 탈옥하는 방법을 발견해 제보했습니다. 행정부는 Dario에게 그 탈옥 문제를 수정하거나 모델 배포를 중단하라고 요청했습니다. Dario는 이를 거부했습니다.
— Anthropic은 블로그 글에서 해당 탈옥이 심각하지 않다고 주장하며 자신들의 결정을 방어했습니다. 하지만 신뢰받는 파트너와 미국 정부는 그렇게 보고 있지 않습니다. 또한 그런 식의 축소 표현은 ‘AI 안전 기업’이라는 Anthropic의 브랜드와도 맞지 않습니다. 사이버 무기를 운용할 수 있게 만드는 탈옥을 어떻게 “심각하지 않다”고 규정할 수 있는지 이해하기 어렵습니다.
— 과거 Anthropic은 항상 안전이 최우선이어야 하며, 매우 진지하게 다뤄져야 한다고 말해왔습니다. 하지만 이번 사안에서 Anthropic은 안전보다 소비자용 모델의 지속 제공을 우선시했습니다.
— 이에 대응해 행정부는 수출 통제를 발동했습니다. 행정부는 이를 마지못해 시행했습니다. 행정부는 Anthropic이 합리적인 안전 요청, 즉 탈옥 문제를 수정하라는 요청에 협조하려 하지 않는 데 매우 놀랐습니다. Anthropic의 반응은 안전한 AI 연구 커뮤니티라는 그들의 브랜딩과 정신에 매우 어긋납니다.
— 행정부의 현재 희망은 Anthropic이 안전 문제를 해결하고, 수출 통제가 해제되며, Fable이 다시 일반 공개되는 것입니다. 행정부는 이 모든 일이 가능한 한 빨리 일어나기를 원합니다. Anthropic이 과거 자신들이 최우선 과제라고 말했던 안전 요청을 따르려 하지 않는다는 점은 솔직히 당혹스럽습니다.
— 이번 조치를 과거 DoW/Anthropic 이슈와 연결 지어 물타기하려는 사람들은 틀렸습니다. 행정부는 Anthropic의 기술 역량을 높게 평가하고 있으며, 이번 사안이 심각하긴 하지만 쉽게 해결될 수 있는 문제라고 보고 있습니다. 이제 공은 Anthropic 쪽에 있습니다.
I’ve had a number of conversations with folks inside and outside government about the current situation with Anthropic, and here is what I believe to be true:
— As we know, Anthropic publicly released its Mythos class models earlier this week under the commercial name Fable.
— Fable is Mythos with guardrails. But if those guardrails fail, then you’ve exposed Mythos and its advanced cyber capabilities to people who shouldn’t have them. (Keep in mind that Anthropic itself widely promoted the idea that Mythos was a cyberweapon and needed to be regulated as such. They asked for government regulation of Mythos and championed the guardrails on Fable. If there is a vulnerability — big or small — it is Anthropic’s responsibility to patch.)
— A highly credible trusted partner of both Anthropic and the USG who was testing Fable came forward with a jailbreak of those guardrails. The Admin asked Dario to fix the jailbreak or de-deploy the model. Dario refused.
— In their blog post, Anthropic defended its decision by saying the jailbreak isn’t serious. That is not what the trusted partner and the USG believe; nor is that kind of minimizing language consistent with Anthropic’s brand as the AI safety company. It’s difficult to fathom how they could claim a jailbreak allowing operability of a cyber weapon could be defined as not “serious.”
— In the past, Anthropic has always said that safety must be top priority and taken super seriously. In this case, Anthropic prioritized the continued offering of the consumer model over safety.
— In reaction, the Admin issued the export control. The Admin did this reluctantly. It’s been very surprised that Anthropic hasn’t wanted to cooperate with a reasonable safety request (ie fixing the jailbreak issue). Anthropic’s reaction is very much at odds with their branding and ethos as a safe AI research community.
— The Admin’s hope now is that Anthropic remediates the safety issue, the export control is lifted, and Fable goes back into general release. The Admin wants all of this to happen as soon as possible. It is frankly bewildered that Anthropic hasn’t wanted to comply with safety requests that it previously said were its highest priority.
— Those trying to misdirect and tie this action to the prior DoW/Anthropic issues are wrong. The Admin values Anthropic’s technical capabilities and feels that this issue, while serious, should be easily resolved. The ball is in Anthropic’s court.