MAI-Thinking-1とMAI-Code-1-Flashとは？MicrosoftがGitHub Copilotに自社LLMを投入する狙い

Microsoftが推論モデル「MAI-Thinking-1」(総1Tパラメータ・アクティブ35B)とコーディング特化「MAI-Code-1-Flash」(総137B・アクティブ5B)を発表しました。後者はGitHub CopilotとVS Codeに統合され、個人ユーザーへの展開が始まっています。

何が発表されたか

Microsoftが2つの新しい自社製テキストLLMを公開しました。推論モデル「MAI-Thinking-1」は総パラメータ1兆・アクティブ35Bで、現時点では一部の早期パートナーのみが利用可能です。コーディング特化の「MAI-Code-1-Flash」は総137B・アクティブ5Bで、GitHub CopilotとVS Codeのために設計され、Visual Studio Code上のCopilot個人ユーザーへの展開が始まっています。

なお、いずれもMoE(Mixture of Experts)構成のため、Simon Willison氏は当初アクティブパラメータを総数と誤読し、後に技術ペーパー(MAI-Thinking-1は80ページ以降に学習データの記述)を確認して訂正しています。

性能とライセンス面の主張

MicrosoftはMAI-Thinking-1について「ブラインドの人間による横並び評価でSonnet 4.6より好まれた」と主張。さらに「企業グレードで商用ライセンス済みのクリーンなデータからゼロから学習し、サードパーティモデルからの蒸留は行っていない」と説明しています。MAI-Code-1-Flashも「Microsoftがエンドツーエンドで構築し、適切にライセンスされたクリーンなデータを使用」としています。

「クリーンな学習データ」の実態

ただし技術ペーパーを読むと、その実態は他の大手LLMと同様、公開ウェブのクロールに基づいています。独自クロールでは約1.2兆ページを取得し、UT1ブロックリスト(Prigent, 2026)とMicrosoft標準ポリシーSec. 2.4でアダルト・著作権侵害ドメインを除外して7940億ページに絞り込み。さらに独自のAI生成コンテンツ検出モデルと手動検査でAI生成が多いドメインを除外しています。Common Crawlも同じパイプラインで処理し、最終的に242億ページを採用しています。

つまり「商用ライセンス済み」という表現は、出版社契約のみで構成されたデータセットを意味するわけではなく、フィルタリングとブロックリスト適用後のウェブクロールを含む点には注意が必要です。

💼 事業会社視点：これは自社にどう効くか

開発ツール市場の地殻変動

GitHub Copilotは長らくOpenAIモデルに依存してきましたが、MAI-Code-1-Flashの投入はMicrosoftが「Copilotの心臓部を自社化する」明確な意思表示です。日本の受託開発・SIerにとっては、Copilot利用コストの構造変化(アクティブ5Bによる低コスト化)が中期的にライセンス価格や同時利用枠に反映される可能性があり、開発者一人あたりのAI予算設計を見直す好機です。

SaaS事業者・自社プロダクトを持つ事業会社にとっては、「ベンダーロックインリスクの分散」という観点が重要です。CopilotがOpenAI一本足から複数モデル併用に移行することは、AIプロダクト戦略において単一基盤モデルへの全面依存が経営上のリスクであることを再確認させます。

また「商用ライセンス済みデータで学習」という主張の実態がウェブクロール+フィルタリングである点は、法務・コンプライアンス担当役員が押さえるべき論点です。日本企業がAIベンダーを選定する際、「クリーンなデータ」という宣伝文句の中身を契約交渉で具体的に問う姿勢が今後不可欠になります。

よくある質問

MAI-Thinking-1とMAI-Code-1-Flashは今すぐ使えますか?

MAI-Code-1-FlashはVisual Studio CodeのGitHub Copilot個人ユーザーへ順次展開中です。MAI-Thinking-1は現時点では一部の早期パートナーのみが利用可能とされています。

「商用ライセンス済みのクリーンなデータ」とは具体的に何を指しますか?

技術ペーパーによれば、約1.2兆ページの独自ウェブクロールにUT1ブロックリストとMicrosoft標準ポリシーSec. 2.4を適用してアダルト・海賊版ドメインを除外し、794Bページまで絞り込んだものです。Common Crawlも同じパイプラインで処理され24.2Bページが採用されています。

MAI-Thinking-1は本当にSonnet 4.6より高性能ですか?

Microsoftは自社のブラインド人間評価で「好まれた」と主張していますが、独立した第三者検証は現時点で公開されておらず、Simon Willison氏も執筆時点では未試用と述べています。

本記事は Simon Willison の報道を元に、事実に基づき独自に再構成したものです。

MAI-Thinking-1とMAI-Code-1-Flashとは？MicrosoftがGitHub Copilotに自社LLMを投入する狙い

何が発表されたか

性能とライセンス面の主張

「クリーンな学習データ」の実態

💼 事業会社視点：これは自社にどう効くか

開発ツール市場の地殻変動

関連リンク

よくある質問

関連記事

GitHub Copilotの価格変更で「Tokenpocalypse」の到来？

AnthropicがFrontier参加で見せる「AI×脱炭素」の本気度——9.15億ドル拠出は事業会社に何を迫るか

LLMは「人間らしい」のか？Age of Empires IIにニューラルネットを作った研究者が突きつける問い