何が起きているのか

推論コストの上昇とベンダー補助の縮小が重なり、AI利用企業の間で「常に最新・最高性能モデルを使う」前提が揺らぎ始めています。Coinbase共同創業者のBrian ArmstrongはX上で、知能への需要はほぼ無限である一方、12〜18カ月以内に80%のワークロードは99%安価なモデルで処理され、残り20%だけが最先端モデルに残ると予測しました。

なぜ重要か

これまでAI企業はScaling則と「bitter lesson」に沿い、投資家マネーによる補助を背景に、クライアントが躊躇なく最上位モデルを叩く構造が続いてきました。トークン単価の上昇と補助の鈍化により、ユーザー側にコスト圧力が初めてのしかかっています。仮に80%のワークロードが小型・安価モデルへ流れれば、IPOを控えるOpenAIやAnthropicの収益構造を直撃します。

「品質」の定義が変わる

法務AIのHarveyは、Fireworks AIと共同で、最も負荷の高いタスクにのみClaude Opusを充て、それ以外をGLM 5.1に振り分けるルーティングを試し、品質を落とさず推論コストを3分の1に下げました。HarveyのGabe Pereyraは「品質が最優先で、法務領域では常にそうあり続ける。ただし品質の定義は、何でも最強モデルを使うことから、正しい答えを最も効率的に出すモデルを選ぶことへ進化している」と述べています。

真の対立軸は「大きいか小さいか」

本質的な分岐は、プロプライエタリかオープンかではなく、大型モデルか小型モデルかにあります。大手ラボの自社推論とオープンウェイトを外部でホストするサービスとの間で、活発な価格戦争が進行中です。ユーザー側は、モデルを切り替える以外にも、呼び出し回数を減らす、コンテキストを削る、見込みの薄い用途を畳むといった節約余地も残されています。

💼 事業会社視点:これは自社にどう効くか

日本の事業会社にとって、本件は「PoC段階から本番運用フェーズへの移行コスト」を直撃するテーマです。とくに国内SaaSと受託開発、EC向けのチャットボット運用では、今までGPT系の最上位モデルにフル課金していた構成を、Harvey型の「タスク別ルーティング」へ早急に組み替える経済合理性が生まれます。

役員視点で押さえるべきは三点です。第一に、自社プロダクトの推論コストを「機能単位・ユーザー単位」で可視化する仕組みがなければ、80%削減の余地を測れません。CFOと連携した単価管理が前提となります。第二に、受託開発では顧客見積もりにトークン単価変動を織り込む契約条項が今後の標準になります。固定額で請けたままトークン高騰を被ると粗利を直撃します。第三に、EC・SaaSの経営者は「最強モデルで全部回す」前提のロードマップを見直し、ルーティング層への投資判断を1四半期前倒しすべきです。OpenAIやAnthropicのIPO前後で価格政策が動く可能性も視野に、複数モデル併用を前提とした調達戦略へ切り替える局面です。

関連リンク