機械学習研究の記事一覧

2026-06-11 ・ VentureBeat

入力トークンを16分の1に圧縮、推論速度8.8倍——NYUら6機関がLLM新アーキテクチャ「LCLM」をオープンソース公開

NYU・コロンビア大学・プリンストン大学・メリーランド大学・ハーバード大学・ローレンス・リバモア国立研究所の共同研究チームが開発した「Latent Context Language Models（LCLM）」は、LLMの入力トークン列をデコーダー処理前に最大16分の1へ圧縮し、KVキャッシュ手法と比較して出力速度を8.8倍向上させた。16倍圧縮時でもRULERベンチマークで75.06%の精度を維持し、検証済みの全KVキャッシュ手法を上回る結果を出した。

#LLM #AIインフラ #コンテキスト圧縮 #推論高速化

#機械学習研究 の記事一覧（1）

入力トークンを16分の1に圧縮、推論速度8.8倍——NYUら6機関がLLM新アーキテクチャ「LCLM」をオープンソース公開

#機械学習研究の記事一覧（1）