何が公開されたか
Anthropicは火曜、新世代「Mythosクラス」の一般向けモデルとして「Claude Fable 5」をリリースしました。従来フロンティアであったOpus系を総合性能で上回るとされ、内部の最上位モデル「Mythos 5」と「same underlying model(同一の基盤モデル)」を共有しています。Mythos 5自体は数カ月のプレビューを経て、Project Glasswingで信頼性が認められた「a small group of cyberdefenders(少数のサイバー防御専門家)」だけに限定提供されます。
安全制御の作り
公開版Fable 5は、サイバーセキュリティ・生物・化学に関する質問を検出する分類器を搭載し、該当時には旧モデルClaude Opus 4.8へ自動的に振り替え、その旨をユーザーに通知します。Anthropicはこの閾値を意図的に「stricter than ideal(理想より厳しい)」に設定しており、無害な質問でも拒否されるケースが「全セッションの5%未満」発生するとしています。1,000時間超の外部レッドチーム検証およびバグバウンティでは、普遍的な脱獄手法は発見されませんでした。
なぜここまで絞るのか
背景にあるのは「agentic hacking(自律的なサイバー攻撃の実行)」への懸念です。英AI Security Instituteの検証では、Mythos PreviewはCapture the Flag課題でOpenAIのGPT-5.5と同等水準を示し、なかでもサイバー領域のベンチマーク向上幅が他項目より突出していました。能力向上が「uplift(悪用者の底上げ)」につながるリスクを抱えるため、Anthropicは汎用提供と限定提供を分けるという珍しい二層運用に踏み切ったと読み取れます。
💼 事業会社視点:これは自社にどう効くか
事業会社の経営者・事業責任者が注視すべきは「フロンティアモデルの提供形態が二層化する」流れです。最新モデルが必ずしも全顧客に同条件で開かれない以上、SaaSやAIエージェントを構築する事業者は、利用するモデルが沈黙・拒否・旧モデル転送を返した場合のUXとSLAをあらかじめ設計に織り込む必要があります。とくにセキュリティ製品、医薬・化学R&D支援、研究受託開発のような領域では、Fable 5を採用すると5%未満とはいえ正当業務クエリが弾かれ得るため、Opus 4.8など旧バージョンへのフォールバック経路や、用途証明を前提とした上位枠(Project Glasswing型)の調達ルートを並走させる体制が現実解になります。日本のSIerやEC事業者は「最新=最良」ではなく「業務目的に対する制御許容度」でモデルを選ぶ調達基準への切り替えが急務です。