GoogleがオープンソースのDiffusionGemmaを公開——256トークンを並列生成、H200で標準比6倍の速度を実現

Googleは今週、Gemma 4をバックボーンに構築した拡散原理ベースのテキスト生成モデル「DiffusionGemma」をApache 2.0ライセンスでオープンソース公開した。256トークンのブロックを並列に生成する新しいアーキテクチャにより、NVIDIA H200上で標準的な自己回帰モデルと比べて最大6倍の速度（毎秒1,288トークン）を達成している。

拡散原理をテキスト生成に応用した新アーキテクチャ

Googleが公開した「DiffusionGemma」は、画像生成分野で広く知られた拡散（ディフュージョン）の仕組みをテキスト生成にプロダクション規模で適用した実験的モデルだ。

従来の大規模言語モデルは左から右へと1トークンずつ逐次的に出力を生成する。DiffusionGemmaはこれとは根本的に異なるアプローチを取る。256トークンのブロックをノイズが乗った状態で一度に展開し、全トークン位置を並列に繰り返しデノイズ（ノイズ除去）することで最終出力を完成させる。各トークンが他のすべてのトークンに双方向でアテンションを向けられるため、後続の文脈も参照しながら生成を行える点が特徴だ。

速度性能と対応ハードウェア

FP8バージョンのベンチマークでは、バッチサイズ1のNVIDIA H100上で毎秒1,008トークン、H200では毎秒1,288トークンを達成した。それぞれ標準的な自己回帰ベースラインと比較して5倍・6倍の高速化となる。

モデルの規模は26BパラメータのMixture of Expertsだが、推論時に実際に活性化されるのは3.8Bパラメータのみ。コンシューマー向けGPUでも18GB VRAMの範囲で動作する。エンタープライズ環境向けには、NVIDIAのHopperおよびBlackwellサーバーでNVFP4カーネルを使った最適化もサポートする。

また、DiffusionGemmaはvLLM推論プラットフォームで初めてネイティブサポートされた拡散型言語モデルでもある。

自己修正機能と品質面の現状

DiffusionGemmaには、各パスで信頼度の低いトークン位置を特定して再評価する自己修正機能が備わっている。ファインチューニングを施したSudokuソルバーでは80%の成功率を達成しており、標準ベースラインの48デノイズステップに対して12ステップで収束するなど、制約付き生成タスクへの適性を示している。

一方でGoogleは「最高品質を求めるアプリケーションには標準のGemma 4の使用を推奨する」と明示しており、現時点での全体的な出力品質は標準Gemma 4には及ばない。

速度優位が得られる条件

速度面でのメリットは条件付きだ。効果が大きいのはローカル推論や並列リクエスト数が少ない低並列デプロイメントに限られる。数百件の並列リクエストを処理するような高スループットのクラウドサービング環境では、この速度優位は成立しない。

拡散モデルの商用展開としては、Inception LabsがMercury Coderを2025年にリリースした先例がある。DiffusionGemmaは、Googleがオープンソースとしてこの分野に参入した最初の大規模な試みとなる。

出典：VentureBeat

よくある質問

DiffusionGemmaと通常のGemma 4は何が違うのか？

通常のGemma 4が1トークンずつ逐次生成するのに対し、DiffusionGemmaは256トークンのブロックをノイズから並列にデノイズして生成する拡散アプローチを採用している。双方向コンテキスト参照と自己修正機能を備えるが、現時点の全体的な出力品質は標準Gemma 4に及ばない。

どのようなハードウェアで動作するのか？

コンシューマー向けGPUでは18GB VRAMに収まるサイズで動作する。NVIDIA H100・H200といったエンタープライズ向けサーバーにも対応しており、vLLM推論プラットフォーム上でネイティブサポートされている。

速度の優位性はどのような環境で得られるのか？

ローカル推論や並列リクエスト数が少ない低並列デプロイメントで特に効果を発揮する。一方、数百件の並列リクエストを処理する高スループットのクラウドサービング環境では速度優位は得られないとされている。

本記事は VentureBeat の報道を元に、事実に基づき独自に再構成したものです。

GoogleがオープンソースのDiffusionGemmaを公開——256トークンを並列生成、H200で標準比6倍の速度を実現

拡散原理をテキスト生成に応用した新アーキテクチャ

速度性能と対応ハードウェア

自己修正機能と品質面の現状

速度優位が得られる条件

関連リンク

よくある質問

関連記事

GoogleがDiffusionGemmaを公開——拡散プロセスで最大4倍高速なテキスト生成、シングルGPUで動作

GoogleのDiffusionGemma、NVIDIAが無料APIで公開——500トークン/秒超の推論速度を実証

拡散型LLM「iLLaDA」とは？ByteDanceと中国・人民大学の8Bモデルが示す可能性と限界