昨日、国立情報学研究所オープンハウスの基調講演で話したことが、今回の米政府によるAnthropicのFable/ Mythos停止事件にちょっと関連するかもしれないので、当日の資料(少し変えた)も合わせてコメント。
仮に今度Mythos/FableレベルのAIが普通に使えるようになる場合、これからは「知能の壁」が崩れた世界が来ると思っています。現在の世界は知能が高い人がそんなに大量にいないのと、そのような人にも時間的な制約があることから安定が保たれていますが、もし誰もが高い知能を使えるようになれば、誰がどこでその高度な知能を使って危険なことをするかわからない&今まではリソース不足で行われなかった攻撃が多発する可能性が高いでしょう。ということで、Anthropicの主張する脅威論や安全策は、ある程度正しいところがあると思います(AI開発関連で警告なし弱体化はやりすぎでしたが)。
TBS CROSS DIGでも何度か触れてますが、「AIを賢く有用にし、さらに危険性も抑える」ことはほぼ成立しないと思います。特に危険なデータで学習しなくても、とても賢い存在は、自然とその気になれば危険なことができるようになってしまいます。プログラミングがとてもうまい人は同時にその気になればとても優秀なハッカーで、生物学者はどの気になれば生物兵器らしきものを作れるでしょう。
Mythos/Fableでは、モデル本体の賢さを落とさないため、AI本体に対するアライメントではなく外部フィルタの形をとってきましたが、生物学、暗号学、AI関連の単語の多くがはじかれることで有用性を損なっています。、何らかの形でフィルタが突破されれば、アライメントが不十分なAIが生身で解放されるので、もしもの危険を考えると、怪しきは全て罰せよ形式にするしかないと思います。そもそも、全く同じプロンプトの同じ出力でも、使う人によって結果が大きく異なるため、単純な入出力だけを見て規制の対象とするのが古いのかもしれません(この点、Anthropicはデータ保存ポリシーを変更して、保存されたデータの組み合わせから危険性を判断しようとしているっぽいので、これは正しいと思います)。
危険性を抑えるためにはAI本体へのアライメントが必須だと思いますが、これは例えばサイバーセキュリティだと、脆弱性特定能力とプログラミング能力は衝突するため、有用性を維持することができません。
ここまでを考えると、今回のアメリカ政府の即時停止はあまりにも急だとしても、将来的には一定性能以上のAIについては、当初のMythosのように事前審査制になり、特定の国、機関、個人しか使えなくなるというのは避けられない気がします。これはアメリカという国に限った話でなく、仮に同盟国の日本だろうと、中国だろうとロシアで先端AIが作られたとしても、世界のどこかで世界を恐怖のどん底に突き落とすウイルスを誰かに作られては困るため、同じ処置になるのではないかと思います。