コンサルが「AIで嘘」をついた日

KPMGがAI導入を顧客に売り込むために作成したレポートに、UBSや英NHSなどを巻き込む架空の事例が含まれていた──GPTZeroのEdward Tian氏が指摘したこの一件は、単なる一社の不祥事として片付けられない。AI活用を推進する側のコンサルティングファーム自身が、生成AIのハルシネーション(もっともらしい捏造)を検証せずに最終納品物に載せたという事実は、業界全体が抱える構造的な問題を露呈している。

さらにSWE-Exploreという新しいベンチマークの結果も示唆的だ。Claude CodeやCodexといったAIコーディングエージェントは、修正すべき「正しいファイル」は高い精度で見つけられる一方で、その中の「直すべき具体的な行」の多くを取りこぼしているという。つまり、AIは正解の近くまでは連れて行ってくれるが、最後の数メートルは外す。コンサル業務であれソフトウェア開発であれ、いま現場で起きているのは「八割は正しいが、二割の致命的な誤りが混入する成果物」が大量生産される事態である。

ここから経営者が読み取るべきは、「AIの導入率」を指標にしてきた時代の終わりだ。問うべきは「誰が、どの工程で、何をチェックするか」という人間側のワークフロー設計に移っている。捏造が混じる前提で、最終アウトプットの責任構造を再設計できているかが、今年後半の差を生む。

Anthropicショックと、見えてきた「AI地政学」

もう一つの注目すべき動きは、AnthropicのFableモデルに対する米政府の介入と、新モデルへのアクセス停止である。報道によれば、Amazonをはじめ六社の経営層がトランプ政権に対しFableのセキュリティ脆弱性を警告し、それが規制の引き金になったとされる。インドの技術者コミュニティはこれを「インドのAI戦略への警告」と受け止め、自国モデルの育成議論を加速させている。

この構図は日本企業にとって他人事ではない。これまで多くの企業は、ChatGPT、Claude、Geminiといった米国製フロンティアモデルへのAPIアクセスを「水道や電気のように常時利用できる前提」で事業計画を組んできた。しかし、特定モデルへのアクセスが地政学や安全保障の判断で突然停止し得るという現実が、いま可視化されている。

日本企業、特にSaaSやECで生成AIを中核機能として組み込んでいる事業者にとって、これは三つの問いを突きつける。第一に、自社プロダクトのコア機能が単一モデルに依存していないか。第二に、モデルが切り替わった場合のプロンプト・評価基盤を移植できる設計になっているか。第三に、国産・オープンソース系モデルへのフォールバック経路を、コストと品質の両面で評価しているか。

日本企業が今日から備える三つの視座

編集部としては、この一日のニュースから次の三つを提案したい。

第一に、AI成果物の「責任配線」を見直すこと。誰が最終的に事実確認をするのか、その人物に十分な時間と権限があるのかをワークフローに明文化する。KPMGの件は、生成AIを使った成果物に対するレビュー工程を「省略するためにAIを入れた」組織で必ず起きる類のミスである。

第二に、モデル・ポートフォリオの考え方を持つこと。投資の世界で単一銘柄集中を避けるように、AI基盤も意識的に分散させる時期に来ている。コストパフォーマンスだけでなく、調達リスクを評価軸に加える。

第三に、「八割正解・二割致命傷」を前提にした業務設計へ移行すること。SWE-Exploreの示唆は、コーディング以外の領域にも当てはまる。営業資料、契約書、与信判断──AIが下書きを高速化する一方で、最終判断は人間が担う領域を意識的に残す。それは効率化への逆行ではなく、事業継続のための保険である。

AIは確実に強くなっている。しかし強くなっているからこそ、扱う人間側の責任も比例して重くなる。私たちは便利な道具を手にしたのではなく、強力で時々嘘をつく協働者と働き始めたのだ。だからこそ──まだ、人間です。