何が起きたか
Anthropicは、今週公開した新AIモデル「Claude Fable 5」に組み込んでいた、競合AIモデル開発者向けの非公開のセーフガードを撤回しました。当初の方針では、フロンティアAI開発に利用しようとする研究者に対し、ユーザーには分からない形でモデルの性能を意図的に低下させる計画でした。
同社は声明で「Fable 5のフロンティアLLM開発向けセーフガードを、可視化する形に変更する」「我々はトレードオフの判断を誤った。バランスを取れなかったことをお詫びする」と表明しています。
新しい運用方針
変更後は、高性能AIの構築を試みているとAnthropicが判断した場合、リクエストの拒否や、より能力の低いモデルへの自動振り分けが行われた事実をユーザーに通知します。サイバーセキュリティ、生物学、化学に関する質問を低性能モデルへ振り分ける運用自体は、サイバー攻撃や生物兵器開発のリスク低減を目的として継続されます。
なお、Anthropicの利用規約では、Claudeを使って競合AIモデルを学習させる行為はもともと禁止されています。
研究コミュニティが反発した理由
非公開の性能劣化は、研究者の間で「裏切り」と受け止められました。Foundation for American InnovationのDean Ball氏はX上で、この方針を「衝撃的なほど敵対的」「秘密のサボタージュ」と批判し、AI安全性の協働を阻害するとして、Anthropic自身の立場を損なうものだと指摘しました。
Prime IntellectのWill Brown氏は、セーフガードが何の警告も出さずに作動するため、開発者は自分が規約に違反しているかどうかすら知ることができないと問題視。フロンティアモデルの安全性・性能・信頼性を検証する第三者評価企業のエコシステムにも悪影響が及ぶ可能性があると述べました。研究者からは「AnthropicがAI研究を独占しようとしているように見える」「自分たちが上った梯子を後ろから外しているようだ」との声もWIREDに寄せられています。
Anthropic側の論理
Anthropicは、ClaudeがAI研究の加速に有効になりつつあることを受けて今回の措置を導入したと説明しています。最近のブログ投稿では、AIの能力向上が社会の適応速度を上回ることへの懸念を示し、「社会的な仕組みやアライメント研究が追いつくよう、フロンティアAI開発を遅らせる、あるいは一時停止する選択肢を持てることは世界にとって望ましい」との立場を示しています。
また、最も高性能なモデルが外国の敵対勢力によって重大な安全リスクを伴う形で利用されるのを防ぐ狙いもあると説明。米国とその同盟国がフロンティアチップと最適化ソフトウェアで優位を持っており、その優位を侵食する用途にClaudeが使われないようにするとしています。
今後の課題
セーフガードが可視化されたことで、Anthropicは「網を広げる必要がある」とし、より無害なリクエストでもセーフガードが作動する可能性があると認めています。同社は分類器の精度を可能な限り早く改善するとしています。
出典: WIRED