何が変わったか

Moonshot AIが公開したKimi K2.7-Codeは、既存ライブラリをラップするコードを生成する代わりに、低レベルのコードを直接生成するアプローチに変更した点が核心的な変更点だ。モデルはトリリオンパラメータ規模のMixture-of-Experts(MoE)アーキテクチャをベースとし、HuggingFaceで重みが公開されている。デプロイにはvLLMまたはSGLangが利用でき、OpenAI互換APIを通じた既存システムへの組み込みも可能だ。ライセンスはModified MITで、商用利用も視野に入る。

なお、このモデルは思考モードのみで動作し、温度パラメータは1.0に固定されており、ユーザーによる調整はできない。

自社ベンチマークでの主張

Moonshot AIは3つの独自ベンチマークでの改善を発表した。Kimi Code Bench v2で21.8%、Program Benchで11%、MLS Bench Liteで31.5%の性能向上を主張している。思考トークンの削減により推論コストが下がるため、開発者はOpenAI互換APIを通じてK2.6からK2.7-Codeに切り替えるだけでトークン効率と推論コストの改善が期待できる。

独立した評価が示す別の顔

一方、研究者のElliot Arledgeが公開ベンチマーク「KernelBench-Hard」で検証したところ、K2.7-Codeはより正直な出力をするものの、K2.6より能力が高いとは言えないという結果が出た。具体的には、K2.7-Codeが作成した5つのカーネルのうち2つはモデル自身のバグによって動作しなかった。MoEカーネルのスコアはK2.6の0.222からK2.7-Codeでは0.157へと後退した。

また、K2.7-CodeはDeepSWEという独立性の高いコーディングベンチマークへの提出が確認されていない。K2.6はDeepSWEで24%のスコアを記録しており、GPT-5.4-miniと同水準にとどまっていた。

業界に広がる「自社ベンチマーク問題」

「自社のテストスイートで二桁の改善を示すことは、どのモデルでも可能だ」という批判は、今回のリリースに限らずAIモデル評価全般に向けられている指摘だ。DeepSWEやSWE-Bench Proといった独立ベンチマークでは、モデル間に70ポイントや30ポイントもの差が生じることもある。K2.7-Codeが独立評価でどのような成績を示すかは、現時点では不明なままだ。

開発者への実際的な影響

K2.6からK2.7-Codeへの移行はAPIレベルで完結するため、コードの変更は最小限で済む。思考トークンの削減は直接的なコスト削減につながるため、大量のコード生成タスクを抱える開発者には実務上のメリットがある。ただし、能力面での改善については独自ベンチマーク以外での検証を待つ必要がある。

出典:VentureBeat