入力トークンを16分の1に圧縮、推論速度8.8倍——NYUら6機関がLLM新アーキテクチャ「LCLM」をオープンソース公開
NYU・コロンビア大学・プリンストン大学・メリーランド大学・ハーバード大学・ローレンス・リバモア国立研究所の共同研究チームが開発した「Latent Context Language Models(LCLM)」は、LLMの入力トークン列をデコーダー処理前に最大16分の1へ圧縮し、KVキャッシュ手法と比較して出力速度を8.8倍向上させた。16倍圧縮時でもRULERベンチマークで75.06%の精度を維持し、検証済みの全KVキャッシュ手法を上回る結果を出した。