Moonshot AIがKimi K2.7-Codeを公開――思考トークン30%削減を主張するも、独立ベンチマークでは疑問符

Moonshot AIはコーディング特化モデル「Kimi K2.7-Code」をオープンソースで公開し、前世代K2.6比で思考トークンを30%削減したと発表したが、独自ベンチマークでの好成績に対し研究者からは「自社テストでの改善は誰でも示せる」との批判が上がっている。

何が変わったか

Moonshot AIが公開したKimi K2.7-Codeは、既存ライブラリをラップするコードを生成する代わりに、低レベルのコードを直接生成するアプローチに変更した点が核心的な変更点だ。モデルはトリリオンパラメータ規模のMixture-of-Experts（MoE）アーキテクチャをベースとし、HuggingFaceで重みが公開されている。デプロイにはvLLMまたはSGLangが利用でき、OpenAI互換APIを通じた既存システムへの組み込みも可能だ。ライセンスはModified MITで、商用利用も視野に入る。

なお、このモデルは思考モードのみで動作し、温度パラメータは1.0に固定されており、ユーザーによる調整はできない。

自社ベンチマークでの主張

Moonshot AIは3つの独自ベンチマークでの改善を発表した。Kimi Code Bench v2で21.8%、Program Benchで11%、MLS Bench Liteで31.5%の性能向上を主張している。思考トークンの削減により推論コストが下がるため、開発者はOpenAI互換APIを通じてK2.6からK2.7-Codeに切り替えるだけでトークン効率と推論コストの改善が期待できる。

独立した評価が示す別の顔

一方、研究者のElliot Arledgeが公開ベンチマーク「KernelBench-Hard」で検証したところ、K2.7-Codeはより正直な出力をするものの、K2.6より能力が高いとは言えないという結果が出た。具体的には、K2.7-Codeが作成した5つのカーネルのうち2つはモデル自身のバグによって動作しなかった。MoEカーネルのスコアはK2.6の0.222からK2.7-Codeでは0.157へと後退した。

また、K2.7-CodeはDeepSWEという独立性の高いコーディングベンチマークへの提出が確認されていない。K2.6はDeepSWEで24%のスコアを記録しており、GPT-5.4-miniと同水準にとどまっていた。

業界に広がる「自社ベンチマーク問題」

「自社のテストスイートで二桁の改善を示すことは、どのモデルでも可能だ」という批判は、今回のリリースに限らずAIモデル評価全般に向けられている指摘だ。DeepSWEやSWE-Bench Proといった独立ベンチマークでは、モデル間に70ポイントや30ポイントもの差が生じることもある。K2.7-Codeが独立評価でどのような成績を示すかは、現時点では不明なままだ。

開発者への実際的な影響

K2.6からK2.7-Codeへの移行はAPIレベルで完結するため、コードの変更は最小限で済む。思考トークンの削減は直接的なコスト削減につながるため、大量のコード生成タスクを抱える開発者には実務上のメリットがある。ただし、能力面での改善については独自ベンチマーク以外での検証を待つ必要がある。

出典：VentureBeat

よくある質問

K2.7-CodeはK2.6と比べて実際に性能が上がっているのですか？

Moonshot AI自身の独自ベンチマークでは改善が報告されていますが、研究者Elliot Arledgeが公開ベンチマークKernelBench-Hardで検証した結果、MoEカーネルのスコアはK2.6の0.222からK2.7-Codeでは0.157へと低下しており、独立した評価での優位性は確認されていません。

K2.7-Codeを使うメリットは何ですか？

思考トークンが30%削減されているため、同等の推論を行う際のコストが下がる可能性があります。OpenAI互換APIを通じてK2.6から切り替えるだけで利用できるため、既存の開発環境への組み込みも容易です。

このモデルはどのように入手・デプロイできますか？

重みはHuggingFaceで公開されており、vLLMまたはSGLangを使ってデプロイできます。ライセンスはModified MITです。なお、動作は思考モード固定で温度パラメータは1.0に固定されており、変更はできません。

本記事は VentureBeat の報道を元に、事実に基づき独自に再構成したものです。

Moonshot AIがKimi K2.7-Codeを公開――思考トークン30%削減を主張するも、独立ベンチマークでは疑問符

何が変わったか

自社ベンチマークでの主張

独立した評価が示す別の顔

業界に広がる「自社ベンチマーク問題」

開発者への実際的な影響

よくある質問

関連記事

Kimi K3とは？中国Moonshot AIのオープンソースAIが市場を揺らした理由を解説

Kimi K3とは？中国Moonshotの2.8兆パラメータ「世界最大オープンソースAI」を解説

AI時代にアプリは死ぬのか?App Store新規リリース60%増から見える「隠れた良作」の潮流