英伟达放大招！Fast-dLLM框架让AI模型推理速度飞起！-AITOP100,AI资讯

AI模型推理太慢？英伟达Fast-dLLM来救场了！

最近科技圈炸了锅，英伟达联合麻省理工学院(MIT)和香港大学，推出了一个名为Fast-dLLM的全新框架。这玩意儿厉害了，专门给扩散模型（Diffusion-based LLMs）提速，直接把推理速度提升了最高27.6倍！这可不是闹着玩的，简直是给语言模型插上了翅膀！

大家都知道，扩散模型一直被认为是自回归模型的强劲对手。它用的是双向注意力机制，理论上能同时生成多个词语，解码速度嗖嗖的。但是，理想很丰满，现实很骨感。实际应用中，扩散模型的推理速度总是慢一拍，比不上自回归模型。问题出在哪儿呢？每次生成都要重复算所有注意力状态，这计算成本简直要爆炸！而且，多个词语同时生成的时候，词语之间的依赖关系还容易出错，影响生成质量。所以，之前扩散模型一直有点“怀才不遇”。

Fast-dLLM两大绝招：KV缓存+置信度解码

为了解决这些难题，英伟达的研发团队在Fast-dLLM框架里加入了两个核心技术：块状近似KV缓存机制和置信度感知并行解码策略。KV缓存就像一个聪明的“小本本”，把序列分成小块，提前计算并保存其他块的激活值，避免重复计算。更牛的是DualCache版本，它能利用相邻推理步骤的高度相似性，把前后缀词元也缓存起来，效率更高！