何が出たのか
Anthropicは2026年5月28日、フラッグシップモデルの最新版「Claude Opus 4.8」を提供開始しました。同社自身が「控えめだが確かな改善」と位置づけており、ベンチマーク上の派手な飛躍よりも、実務利用での信頼性向上に重きを置いたリリースです。価格はOpus 4.5/4.6/4.7と据え置きで、入力100万トークンあたり5ドル、出力100万トークンあたり25ドル。コンテキストウィンドウは100万トークン、最大出力は12.8万トークンに対応します。学習データのカットオフは4.7と同じ2026年1月です。
最大の改善は「答えない勇気」
今回のアップデートで最も注目すべきは「正直さ(honesty)」の強化です。Anthropic自身の評価では、自分が書いたコードに含まれる欠陥を指摘せず通してしまう確率が、前世代から約4分の1に低下しました。さらにシステムカードによれば、6モデル比較で事実誤認率(incorrect-rate)が全ベンチマークで最低を記録しています。注目すべきは、その実現方法が「正答数を増やしたから」ではなく「不確かな質問には答えを差し控える」というアプローチで達成されている点です。
開発者向けの実用的な変更点
機能面では、ユーザーターンの直後にrole: 'system'メッセージを差し込める「会話途中のシステムメッセージ」が解禁されました。長尺の対話やエージェントループで指示を更新する際、システムプロンプト全体を再送する必要がなくなり、過去ターンのプロンプトキャッシュが効いたままになります。加えてキャッシュ可能な最小プロンプト長が4,096トークンから1,024トークンへと引き下げられ、短いプロンプトでもキャッシュ割引が効くようになりました。これは入力コストを大幅に圧縮する余地を生みます。
一方、出力速度を高める「Fast mode」は標準価格の2倍に値下げされ(従来の4.6/4.7では30ドル/150ドル)、当面はリサーチプレビュー参加組織のみアカウントマネージャー経由で利用可能となっています。
出典: Simon Willison
💼 事業会社視点:これは自社にどう効くか
日本のSaaS・受託開発・社内DX部門にとって、4.8の本当の価値は「ベンチマークの数字」ではなく「答えを差し控える設計」と「キャッシュ閾値の引き下げ」にあります。
受託開発・SIer: コード生成の欠陥見逃し率が約4分の1になったことで、人間レビュー工数の前提が変わります。これまで「AI生成コードは結局全行レビュー」が暗黙の安全策だった現場では、レビュー粒度を「AIが不確実と申告した箇所優先」に切り替える運用設計が現実味を帯びてきます。
SaaS事業者・カスタマーサポート自動化: 「答えないAI」は一見後退に見えますが、誤回答による炎上・解約リスクを抱える業務では福音です。SLAやハルシネーション免責の契約条項を、4.8の振る舞いに合わせて見直す価値があります。
コスト管理担当の役員: キャッシュ閾値が1,024トークンに下がったことで、短い社内チャットや問い合わせ応答でも入力コストを大幅に削れます。月額API費が数百万円規模の会社では、プロンプト設計の見直しだけで二桁%の削減余地が生まれます。価格据え置きの今こそ、4.7から4.8へ移行する経済合理性は明確です。