何が発表されたか

Microsoftが2つの新しい自社製テキストLLMを公開しました。推論モデル「MAI-Thinking-1」は総パラメータ1兆・アクティブ35Bで、現時点では一部の早期パートナーのみが利用可能です。コーディング特化の「MAI-Code-1-Flash」は総137B・アクティブ5Bで、GitHub CopilotとVS Codeのために設計され、Visual Studio Code上のCopilot個人ユーザーへの展開が始まっています。

なお、いずれもMoE(Mixture of Experts)構成のため、Simon Willison氏は当初アクティブパラメータを総数と誤読し、後に技術ペーパー(MAI-Thinking-1は80ページ以降に学習データの記述)を確認して訂正しています。

性能とライセンス面の主張

MicrosoftはMAI-Thinking-1について「ブラインドの人間による横並び評価でSonnet 4.6より好まれた」と主張。さらに「企業グレードで商用ライセンス済みのクリーンなデータからゼロから学習し、サードパーティモデルからの蒸留は行っていない」と説明しています。MAI-Code-1-Flashも「Microsoftがエンドツーエンドで構築し、適切にライセンスされたクリーンなデータを使用」としています。

「クリーンな学習データ」の実態

ただし技術ペーパーを読むと、その実態は他の大手LLMと同様、公開ウェブのクロールに基づいています。独自クロールでは約1.2兆ページを取得し、UT1ブロックリスト(Prigent, 2026)とMicrosoft標準ポリシーSec. 2.4でアダルト・著作権侵害ドメインを除外して7940億ページに絞り込み。さらに独自のAI生成コンテンツ検出モデルと手動検査でAI生成が多いドメインを除外しています。Common Crawlも同じパイプラインで処理し、最終的に242億ページを採用しています。

つまり「商用ライセンス済み」という表現は、出版社契約のみで構成されたデータセットを意味するわけではなく、フィルタリングとブロックリスト適用後のウェブクロールを含む点には注意が必要です。

💼 事業会社視点:これは自社にどう効くか

開発ツール市場の地殻変動

GitHub Copilotは長らくOpenAIモデルに依存してきましたが、MAI-Code-1-Flashの投入はMicrosoftが「Copilotの心臓部を自社化する」明確な意思表示です。日本の受託開発・SIerにとっては、Copilot利用コストの構造変化(アクティブ5Bによる低コスト化)が中期的にライセンス価格や同時利用枠に反映される可能性があり、開発者一人あたりのAI予算設計を見直す好機です。

SaaS事業者・自社プロダクトを持つ事業会社にとっては、「ベンダーロックインリスクの分散」という観点が重要です。CopilotがOpenAI一本足から複数モデル併用に移行することは、AIプロダクト戦略において単一基盤モデルへの全面依存が経営上のリスクであることを再確認させます。

また「商用ライセンス済みデータで学習」という主張の実態がウェブクロール+フィルタリングである点は、法務・コンプライアンス担当役員が押さえるべき論点です。日本企業がAIベンダーを選定する際、「クリーンなデータ」という宣伝文句の中身を契約交渉で具体的に問う姿勢が今後不可欠になります。

関連リンク