何が起きたか

独TUD Dresdenとハイデルベルク大学が開発した自律エージェント「MIRA(Medical Intelligence for Reasoning and Action)」は、仮想電子カルテ内で11ツール・8万5000超の選択肢から問診・検査オーダー・画像解釈・処方・入院判断までを実行します。公開データセットMIMIC-IVの救急500例超で診断正答率88.9%、311例の直接比較では87.8%を記録し、専門医4名(78.1%)と研修医混合チーム(71.1%)を上回りました。盲検レビューでは危険な薬物相互作用・腎機能を踏まえない用量誤り・リスクのある鎮痛処方はゼロ、入院必要例の見落としもゼロでした。

Googleの「AMIE」は会話エージェントとガイドライン照合エージェントの二段構成で、英NICEとBMJ Best Practiceを基準に21名の一般医と100症例で比較。初診時の治療計画の妥当性は95%対72%、専門医レビュアーも模擬患者役も人間医師よりAMIEを好む頻度が高い結果でした。薬学ベンチマークRxQAでも難問で一般医を上回っています。

なぜ重要か

注目すべきは性能数値そのものではなく、足場(scaffolding)の意味が変わりつつある事実です。AMIEはGemini 1.5 Flash、MIRAはGPT-4oとo1-preview——いずれも旧世代です。Google側の追試では、Gemini 2.5 Flashに切り替えると専用足場の優位がほぼ消え、Gemini 2.5 Pro・o3・GPT-5は汎用のままAMIE全体と「largely comparable(ほぼ同等)」のスコアを出しました。

何が論点か

つまり「ドメイン特化のプロンプト・ツール設計」で稼いだ性能差は、汎用モデルの世代交代で吸収されていく可能性が高い。一方でMIRAの「病院臨床システムへの接続層」はモデルが強くなっても陳腐化しません。価値の重心が、推論ロジックの工夫から「現場システムとの接続」「権限・責任設計」に移っているということです。なお両研究とも、MIMIC-IVが学習データに含まれた可能性、模擬患者の発話が実際のER会話より「構造化されすぎている」点を限界として認めています。

💼 事業会社視点:これは自社にどう効くか

日本の医療系SaaSや受託開発、製薬・保険・健保組合のDX担当役員にとって、この2研究は「医療AIの差別化ポイントが移った」というシグナルです。これまで医療特化LLMやプロンプト最適化を売りにしてきたスタートアップは、半年から1年スパンで汎用モデルの世代交代に優位を吸収されるリスクを直視すべきです。投資対象は推論ロジックそのものではなく、電子カルテ・レセプト・検査機器との接続、権限・監査ログ、責任分界の設計といった「足場の下半分」に絞り込むのが現実的です。

事業会社の経営者にとってより重要なのは、これが医療以外にも当てはまる構造だという点です。法務・会計・受託開発・カスタマーサポートで「専用LLM」を内製している企業は、足場のうち「モデルが強くなれば不要になる部分」と「自社データ・基幹システム接続として残る部分」を棚卸しし、後者にエンジニアリング工数を集中させる判断が必要です。MIRAがGitHubでソースを公開している点も含め、差別化はモデル選定ではなく統合層で取りに行く時代に入っています。

関連リンク