GoogleのDiffusionGemma、NVIDIAが無料APIで公開——500トークン/秒超の推論速度を実証

Googleが2026年5月に試験公開した拡散型言語モデル「Gemini Diffusion」がオープンウェイトモデル「DiffusionGemma（google/diffusiongemma-26B-A4B-it）」としてApache 2ライセンスで正式リリースされ、NVIDIAがNIM Cloud APIを通じて無償提供を開始した。6月10日の検証では2,409トークンを4.4秒で生成し、500トークン/秒以上の実用的な速度が確認されている。

拡散型LLMがオープンウェイトで登場

Googleは2026年5月、従来のトークン逐次生成とは異なる「拡散（Diffusion）」アプローチを採用した実験的な言語モデル「Gemini Diffusion」を公開した。当初の計測では857トークン/秒という高速な推論性能が報告されたが、Googleはその後しばらく追加の発表を行っていなかった。

オープンウェイト化とNVIDIAによる無償ホスティング

その後、同モデルはApache 2ライセンスのオープンウェイトモデルとしてgoogle/diffusiongemma-26B-A4B-itの名称で公開された。パラメータ規模は26Bで、GemmaファミリーのInstruct（it）バリアントとして位置づけられている。

NVIDIAはこのモデルをNIM（NVIDIA Inference Microservices）Cloud API上で無償提供しており、ユーザーはローカル環境を用意せずにモデルを試せる状態になっている。

500トークン/秒超の速度を再確認

6月10日に実施された最新の検証では、2,409トークンの生成を4.4秒で完了し、少なくとも500トークン/秒以上のスループットが改めて示された。5月の計測値（857トークン/秒）と合わせると、拡散型アーキテクチャが持つ速度面の優位性は一定の再現性があると言える。

なぜ注目されるか

従来の自己回帰型LLMはトークンを1つずつ順番に生成するため、出力長に比例して時間がかかる。拡散型のアプローチはこの制約を異なる方法で解決しようとするもので、速度面でのポテンシャルが高い。オープンウェイトかつApache 2ライセンスで公開されたことで、研究者や開発者が商用・非商用を問わず自由に利用・改変できる点も実用上の意義が大きい。

NVIDIAによる無償APIホスティングは、手元のGPUリソースがなくてもすぐに試験利用できる環境を整備しており、エコシステムの広がりを後押しする形となっている。

出典：Simon Willison

よくある質問

DiffusionGemmaは無料で使えますか？

はい。NVIDIAがNIM Cloud API上で無償提供しており、アカウント登録後にAPIとして利用できます。モデル自体もApache 2ライセンスで公開されているため、自前環境へのデプロイも可能です。

「拡散型」とはどういう意味ですか？

従来のLLMがトークンを1つずつ順番に生成するのに対し、拡散モデルは異なる生成アプローチを取ります。DiffusionGemmaはこの仕組みを言語生成に応用したもので、高速な推論速度が特徴として報告されています。

パラメータ数はどのくらいですか？

公開されているモデルは26Bパラメータで、モデルIDは「google/diffusiongemma-26B-A4B-it」です。

本記事は Simon Willison の報道を元に、事実に基づき独自に再構成したものです。

GoogleのDiffusionGemma、NVIDIAが無料APIで公開——500トークン/秒超の推論速度を実証

拡散型LLMがオープンウェイトで登場

オープンウェイト化とNVIDIAによる無償ホスティング

500トークン/秒超の速度を再確認

なぜ注目されるか

関連リンク

よくある質問

関連記事

GoogleがDiffusionGemmaを公開——拡散プロセスで最大4倍高速なテキスト生成、シングルGPUで動作

GoogleがオープンソースのDiffusionGemmaを公開——256トークンを並列生成、H200で標準比6倍の速度を実現

SynthIDとは？300回圧縮しても消えないGoogleのAI透かしと、それでも偽情報が止まらない構造的な理由