「左から右」をやめた言語モデル

大規模言語モデルの多くは、単語(トークン)を左から右へ1つずつ生成する自己回帰型の仕組みを採用している。DiffusionGemmaはこの設計を根本から変え、画像生成で広く使われる「拡散(Diffusion)」プロセスをテキスト生成に応用した。

処理はまず256個のランダムなプレースホルダートークンから始まり、複数の精製ステップを繰り返しながら徐々に読み取り可能なテキストへと収束していく。この並列処理方式により、GPUの演算ユニットを効率よく稼働させられ、逐次生成でメモリ帯域に縛られがちな従来型モデルとの差が生まれる。

スペックと実測スループット

DiffusionGemmaの総パラメータ数は260億だが、Mixture-of-Experts(MoE)アーキテクチャを採用しており、1ステップあたりに活性化するのは38億パラメータにとどまる。低精度量子化時にはVRAM 18GBに収まるため、コンシューマー向けハイエンドGPUでも動作する。

実測スループットはNvidiaのH100で毎秒1,000トークン、DGX Stationで800トークン/秒、GeForce RTX 5090で700トークン以上/秒、DGX Sparkで150トークン/秒。同規模のGemma 4と比べて3.5倍高速とされる。ただし各種ベンチマークの精度スコアは、従来型のGemma 4モデルをわずかに下回る。

速度優位の条件と得意なタスク

この速度優位性は主に専用アクセラレーターおよびシングルユーザーでの推論環境で顕著に現れる。クラウド環境での並列リクエスト処理では優位性が消失するか逆転する場合があり、用途の選別が必要だ。

一方で、テキストの中間部への挿入・コードの穴埋め・構造化データ処理など、左から右への順序生成が前提とならないタスクとの相性が良い点は、従来モデルにはない強みといえる。

提供形態とエコシステム対応

モデルの重みはHugging FaceにてApache 2.0ライセンスで公開されており、Hugging Face Transformers・vLLM・MLXに対応している。各GPUアーキテクチャへの最適化と量子化はNvidiaが担当した。

DiffusionGemmaはGemma 4ファミリーを基盤とし、Google DeepMindの先行研究であるGemini Diffusionで培われた拡散プロセスを応用して開発されている。

関連リンク