GoogleがDiffusionGemmaを公開——拡散プロセスで最大4倍高速なテキスト生成、シングルGPUで動作

Googleは拡散プロセスによってテキストを生成する実験的オープンウェイトモデル「DiffusionGemma」を公開した。シングルGPU・シングルユーザー環境において従来の自己回帰型言語モデルと比べ最大4倍の速度でテキストを出力でき、H100では毎秒1,000トークンを実現する。

「左から右」をやめた言語モデル

大規模言語モデルの多くは、単語（トークン）を左から右へ1つずつ生成する自己回帰型の仕組みを採用している。DiffusionGemmaはこの設計を根本から変え、画像生成で広く使われる「拡散（Diffusion）」プロセスをテキスト生成に応用した。

処理はまず256個のランダムなプレースホルダートークンから始まり、複数の精製ステップを繰り返しながら徐々に読み取り可能なテキストへと収束していく。この並列処理方式により、GPUの演算ユニットを効率よく稼働させられ、逐次生成でメモリ帯域に縛られがちな従来型モデルとの差が生まれる。

スペックと実測スループット

DiffusionGemmaの総パラメータ数は260億だが、Mixture-of-Experts（MoE）アーキテクチャを採用しており、1ステップあたりに活性化するのは38億パラメータにとどまる。低精度量子化時にはVRAM 18GBに収まるため、コンシューマー向けハイエンドGPUでも動作する。

実測スループットはNvidiaのH100で毎秒1,000トークン、DGX Stationで800トークン/秒、GeForce RTX 5090で700トークン以上/秒、DGX Sparkで150トークン/秒。同規模のGemma 4と比べて3.5倍高速とされる。ただし各種ベンチマークの精度スコアは、従来型のGemma 4モデルをわずかに下回る。

速度優位の条件と得意なタスク

この速度優位性は主に専用アクセラレーターおよびシングルユーザーでの推論環境で顕著に現れる。クラウド環境での並列リクエスト処理では優位性が消失するか逆転する場合があり、用途の選別が必要だ。

一方で、テキストの中間部への挿入・コードの穴埋め・構造化データ処理など、左から右への順序生成が前提とならないタスクとの相性が良い点は、従来モデルにはない強みといえる。

提供形態とエコシステム対応

モデルの重みはHugging FaceにてApache 2.0ライセンスで公開されており、Hugging Face Transformers・vLLM・MLXに対応している。各GPUアーキテクチャへの最適化と量子化はNvidiaが担当した。

DiffusionGemmaはGemma 4ファミリーを基盤とし、Google DeepMindの先行研究であるGemini Diffusionで培われた拡散プロセスを応用して開発されている。

よくある質問

DiffusionGemmaはコンシューマー向けGPUで動作しますか？

低精度量子化時にVRAM 18GBに収まるため、GeForce RTX 5090などハイエンドコンシューマーGPUでの動作が確認されています。GeForce RTX 5090では毎秒700トークン以上を実現しています。

従来の言語モデルと何が根本的に異なるのですか？

従来モデルが1トークンずつ逐次生成するのに対し、DiffusionGemmaは256個のランダムトークンを出発点に複数ステップの精製処理を並列で行う拡散プロセスを採用しています。そのため、コード補完やテキスト中間挿入のように左から右への順序生成が前提とならないタスクにも対応できます。

商用利用は可能ですか？

Apache 2.0ライセンスで公開されているため、商用利用が可能です。ただし利用にあたってはライセンス条件を個別に確認することを推奨します。

本記事は The Decoder の報道を元に、事実に基づき独自に再構成したものです。

GoogleがDiffusionGemmaを公開——拡散プロセスで最大4倍高速なテキスト生成、シングルGPUで動作

「左から右」をやめた言語モデル

スペックと実測スループット

速度優位の条件と得意なタスク

提供形態とエコシステム対応

関連リンク

よくある質問

関連記事

GoogleがオープンソースのDiffusionGemmaを公開——256トークンを並列生成、H200で標準比6倍の速度を実現

GoogleのDiffusionGemma、NVIDIAが無料APIで公開——500トークン/秒超の推論速度を実証

SynthIDとは？300回圧縮しても消えないGoogleのAI透かしと、それでも偽情報が止まらない構造的な理由