ベンチマーク首位、ただし差は限定的

Anthropicが投入したClaude Fable 5は、Artificial Analysis Intelligence Indexで64.9点を獲得し、全モデル中1位となった。2位はOpenAIのGPT-5.5で、約5点差。非Anthropicモデルの中では最高位だが、Fable 5との差は明確に存在する。

10項目のベンチマークのうち5項目でFable 5は最高記録を更新した。知識テストAA-Omniscienceでは40点を記録し、それまで首位だったGemini 3.1 Pro Previewを7点上回った。エージェントタスクのGDPval-AAではEloレーティング1,932を達成し、Opus 4.8の1,890から2.2%改善。Terminal-Bench HardとTau2-bench Telecomでもトップとなった。難易度の高い知識テストHumanity’s Last Examでは53%を記録し、Opus 4.8を7ポイント以上上回っている。

幻覚率と安全フィルターの影響

一方で課題も確認されている。AA-OmniscienceにおけるFable 5の幻覚率は55%で、全体の中位に位置する。首位を取りながら事実性の面では優位性を示せていない。

Fable 5はClaude Mythos 5と同じベースモデルを使用しているが、サイバーセキュリティ・生物・化学・モデル蒸留に関する安全フィルターが追加されている。フィルターに引っかかったリクエストはOpus 4.8へ自動的にルーティングされる仕組みで、Anthropicは影響を受けるセッションを5%未満と説明しているが、Artificial Analysisの計測では約8%のタスクでフォールバックが発生した。Humanity’s Last Examのテストでは9%のフォールバック率が記録されており、実際の運用では公式発表より影響が大きい可能性がある。

コストは前世代の2倍

APIの料金体系は、入力トークン100万件あたり10ドル、出力トークン100万件あたり50ドル。Opus 4.8の5ドル・25ドルと比較すると、いずれも2倍の価格設定となる。Intelligence Indexのフルテストを実行した場合、Fable 5では9,940ドルかかるのに対し、Opus 4.8では4,970ドルで済む。

コストを2倍にしながら性能向上が5.7%にとどまるという構造は、コスト効率を重視する企業にとって導入の判断を複雑にする。Fable 5はOpus 4.8と同じ100万トークンのコンテキストウィンドウを維持しており、新機能として目立った拡張はない。

サブスクリプション経由のアクセスは6月22日まで、Opusレートの2倍で提供される。それ以降はクレジットベースの課金に移行する。


出典:The Decoder

関連リンク