拡散型LLMがオープンウェイトで登場
Googleは2026年5月、従来のトークン逐次生成とは異なる「拡散(Diffusion)」アプローチを採用した実験的な言語モデル「Gemini Diffusion」を公開した。当初の計測では857トークン/秒という高速な推論性能が報告されたが、Googleはその後しばらく追加の発表を行っていなかった。
オープンウェイト化とNVIDIAによる無償ホスティング
その後、同モデルはApache 2ライセンスのオープンウェイトモデルとしてgoogle/diffusiongemma-26B-A4B-itの名称で公開された。パラメータ規模は26Bで、GemmaファミリーのInstruct(it)バリアントとして位置づけられている。
NVIDIAはこのモデルをNIM(NVIDIA Inference Microservices)Cloud API上で無償提供しており、ユーザーはローカル環境を用意せずにモデルを試せる状態になっている。
500トークン/秒超の速度を再確認
6月10日に実施された最新の検証では、2,409トークンの生成を4.4秒で完了し、少なくとも500トークン/秒以上のスループットが改めて示された。5月の計測値(857トークン/秒)と合わせると、拡散型アーキテクチャが持つ速度面の優位性は一定の再現性があると言える。
なぜ注目されるか
従来の自己回帰型LLMはトークンを1つずつ順番に生成するため、出力長に比例して時間がかかる。拡散型のアプローチはこの制約を異なる方法で解決しようとするもので、速度面でのポテンシャルが高い。オープンウェイトかつApache 2ライセンスで公開されたことで、研究者や開発者が商用・非商用を問わず自由に利用・改変できる点も実用上の意義が大きい。
NVIDIAによる無償APIホスティングは、手元のGPUリソースがなくてもすぐに試験利用できる環境を整備しており、エコシステムの広がりを後押しする形となっている。
出典:Simon Willison