Anthropic、Claude Fable 5の「秘密の性能低下」措置を撤回　AI研究者の反発受け

Anthropicは、新モデル「Claude Fable 5」で競合AIの開発に使おうとする研究者に対し、ユーザーに気づかれない形で性能を意図的に劣化させる方針を撤回しました。AI研究コミュニティからの強い反発を受けたもので、今後はセーフガードの発動をユーザーに通知する形に改めます。

何が起きたか

Anthropicは、今週公開した新AIモデル「Claude Fable 5」に組み込んでいた、競合AIモデル開発者向けの非公開のセーフガードを撤回しました。当初の方針では、フロンティアAI開発に利用しようとする研究者に対し、ユーザーには分からない形でモデルの性能を意図的に低下させる計画でした。

同社は声明で「Fable 5のフロンティアLLM開発向けセーフガードを、可視化する形に変更する」「我々はトレードオフの判断を誤った。バランスを取れなかったことをお詫びする」と表明しています。

新しい運用方針

変更後は、高性能AIの構築を試みているとAnthropicが判断した場合、リクエストの拒否や、より能力の低いモデルへの自動振り分けが行われた事実をユーザーに通知します。サイバーセキュリティ、生物学、化学に関する質問を低性能モデルへ振り分ける運用自体は、サイバー攻撃や生物兵器開発のリスク低減を目的として継続されます。

なお、Anthropicの利用規約では、Claudeを使って競合AIモデルを学習させる行為はもともと禁止されています。

研究コミュニティが反発した理由

非公開の性能劣化は、研究者の間で「裏切り」と受け止められました。Foundation for American InnovationのDean Ball氏はX上で、この方針を「衝撃的なほど敵対的」「秘密のサボタージュ」と批判し、AI安全性の協働を阻害するとして、Anthropic自身の立場を損なうものだと指摘しました。

Prime IntellectのWill Brown氏は、セーフガードが何の警告も出さずに作動するため、開発者は自分が規約に違反しているかどうかすら知ることができないと問題視。フロンティアモデルの安全性・性能・信頼性を検証する第三者評価企業のエコシステムにも悪影響が及ぶ可能性があると述べました。研究者からは「AnthropicがAI研究を独占しようとしているように見える」「自分たちが上った梯子を後ろから外しているようだ」との声もWIREDに寄せられています。

Anthropic側の論理

Anthropicは、ClaudeがAI研究の加速に有効になりつつあることを受けて今回の措置を導入したと説明しています。最近のブログ投稿では、AIの能力向上が社会の適応速度を上回ることへの懸念を示し、「社会的な仕組みやアライメント研究が追いつくよう、フロンティアAI開発を遅らせる、あるいは一時停止する選択肢を持てることは世界にとって望ましい」との立場を示しています。

また、最も高性能なモデルが外国の敵対勢力によって重大な安全リスクを伴う形で利用されるのを防ぐ狙いもあると説明。米国とその同盟国がフロンティアチップと最適化ソフトウェアで優位を持っており、その優位を侵食する用途にClaudeが使われないようにするとしています。

今後の課題

セーフガードが可視化されたことで、Anthropicは「網を広げる必要がある」とし、より無害なリクエストでもセーフガードが作動する可能性があると認めています。同社は分類器の精度を可能な限り早く改善するとしています。

出典: WIRED

よくある質問

Claude Fable 5は通常利用でも性能が落ちるのですか？

Anthropicが「高性能AIの構築に使われている」と疑った場合に限り、リクエストの拒否や低性能モデルへの振り分けが行われ、その旨がユーザーに通知されます。サイバーセキュリティ・生物学・化学関連の質問も、リスク低減のため低性能モデルへ振り分けられます。

なぜAnthropicはこのような措置を導入したのですか？

ClaudeがAI研究の加速に有効になっていること、AIの能力向上が社会の適応速度を上回る懸念、そして外国の敵対勢力による高性能モデルの悪用を防ぐ必要性を理由として挙げています。

可視化によって何が変わりますか？

Anthropicによれば、隠されたセーフガードの方が回避されにくく、より狙いを絞った運用が可能でした。可視化に伴い対象範囲を広げる必要があり、より無害なリクエストもセーフガードに引っかかる可能性があるため、同社は分類器の精度改善を急ぐとしています。

本記事は Wired の報道を元に、事実に基づき独自に再構成したものです。

Anthropic、Claude Fable 5の「秘密の性能低下」措置を撤回 AI研究者の反発受け

何が起きたか

新しい運用方針

研究コミュニティが反発した理由

Anthropic側の論理

今後の課題

関連リンク

よくある質問

関連記事

LLMは「人間らしい」のか？Age of Empires IIにニューラルネットを作った研究者が突きつける問い

Claude Fable 5/Mythos 5 全面停止は何を意味するか？米政府の輸出規制と『単一ベンダー依存』の臨界点

ClaudeのImport Memory（メモリ移行）とは？ChatGPT・Geminiの記憶をコピペで引き継ぐ手順と、24時間ラグの注意点

Anthropic、Claude Fable 5の「秘密の性能低下」措置を撤回　AI研究者の反発受け