「賢さ」のものさしが揺らぎ始めた

日曜日、中国・新浪微博(Weibo)の9人の研究チームが公開した30億パラメータの推論モデル「VibeThinker-3B」が、海外のAIコミュニティで再び「ベンチマーク論争」を呼んでいる。小さなモデルが特定の評価指標で巨大モデルに肉薄するたびに、私たちは同じ問いに引き戻される。そのスコアは、本当に「賢さ」を測っているのか。

評価の信頼性が揺らぐと、AIに投じられる資本配分の前提が揺らぐ。投資家も事業会社も、「どのモデルにいくら払うか」をベンチマーク表を見ながら決めてきた。だが、もし数字が現実のユースケース性能と乖離しているなら、私たちは何を根拠にAIに値段をつけるべきなのか。Weiboの小さなモデルが投げかけているのは、技術論ではなく経済論である。

政治と環境が、AIの「実コスト」を可視化する

同じ週、もう二つのニュースが伝えられた。AnthropicがTrump政権との対立を深めながらも、業務利用の支出データ(Ramp調べ)では成長を続けているという話。そして、xAIがGrokのデータセンター向けに許可なくガスタービンを稼働させているとして大気浄化法違反でNAACPが訴えていた件で、Trump政権が訴訟阻止に動いたという話だ。

一見ばらばらに見えるが、共通の輪郭がある。AIの「実コスト」は、もはやAPI料金や電気代だけではない。政治的スタンス、規制対応、地域社会との関係、そして環境負荷。これらすべてが、企業がAIを選び、使い、推奨する判断材料に組み込まれ始めている。Anthropicの売上が政治対立のさなかで伸びているのは、企業ユーザーが「ガバナンス姿勢」を購買要因に含め始めた兆候だろう。逆に、xAIを取り巻く環境訴訟は、AIインフラの「外部不経済」が法廷の俎上に乗り始めたことを示している。

課金停止が告げる、不確実性の時代

そしてAnthropic自身も、Claude Agent SDKのトークン課金への移行を直前で「一時停止」した。月曜実施予定だった変更はパワーユーザーのコストを大きく押し上げる内容で、批判を受けての判断だと伝えられている。エージェント時代の料金体系を巡って、提供側もまだ着地点を探っている、ということだ。

これは小さなニュースに見えて、事業会社にとっては重い意味を持つ。AIエージェントを業務プロセスに組み込む際、「単位コストが半年後にどうなっているか」を読み切れない状態が続く。請求書の不確実性は、PoCを本番運用に移す稟議の最大の障壁になる。

日本企業が今日から備えるべき三つのこと

四つのニュースを束ねると、AIの主戦場が「モデルの賢さ」から「信頼と運用コストの設計」に移りつつあることが見えてくる。日本の経営者にとっての含意は三つある。

第一に、ベンチマーク偏重の評価をやめる。社内ユースケースに即した独自評価を、たとえ粗くても作る方が、世界の評価表を追いかけるより投資判断に直結する。

第二に、AIベンダー選定に「ガバナンス・電源・水・規制リスク」を組み込む。これらは数年内に、商取引における当然の照会事項になる。ECやSaaS事業者なら、自社の顧客から問われる側になる前に、自分たちが問う側に回っておきたい。

第三に、エージェント時代の料金変動を前提に、業務設計を「料金体系から独立」させておく。プロンプトとワークフローをモデル横断で書き直せる組織体力が、向こう一年の競争力の差になる。

派手な新モデル発表のない一日にも、地殻はゆっくり動いている。賢さの定義が揺らぎ、コストの定義が広がる時代に、私たちはどんな判断軸を持つべきか。それを問い続けることが、まだ人間に残された仕事である。