10月13日蚂蚁集团正式开源了业内首个高性能扩散语言模型推理框架dInfer,这可是具有里程碑意义的事件。以往大家总觉得自回归模型在推理速度上难以超越,可dInfer却做到了,这难道不让人惊叹吗?和之前那些在推理效率上表现平平的框架相比,dInfer简直就是“黑马”般的存在。
在AI技术飞速发展的当下,各类模型不断涌现。扩散语言模型作为一种全新范式,把文本生成看作“从随机噪声中逐步恢复完整序列”的去噪过程,有着高度并行、全局视野、结构灵活这三大优势。
像蚂蚁集团和人大发布的LLaDA - MoE等模型,在多个基准测试里,准确性都能和顶尖AR模型一较高下。不过呢,在推理效率方面,dLLM虽然理论上潜力巨大,可一直被计算成本高、KV缓存失效、并行解码这三大难题“卡脖子”,推理速度始终上不去。这就好比一辆豪车,发动机性能超强,但被几个小故障限制了速度,实在可惜。那怎么才能打破这些限制,释放扩散语言模型在推理效率上的潜能呢?这成了整个领域迫切需要解决的难题。
下面来对比一下dInfer和Fast - dLLM以及Qwen2.5 - 3B在推理速度上的情况:
对比对象 | 平均推理速度(avg TPS) | 备注 |
---|---|---|
dInfer与Fast - dLLM对比 | dInfer为681,Fast - dLLM为63.6,dInfer提升10.7倍 | 模型效果持平情况下 |
dInfer与Qwen2.5 - 3B对比 | dInfer为681,Qwen2.5 - 3B为277,dInfer是其2.5倍 | 参数量和性能相当 |
值得一提的是,随着AI在各行业的广泛应用,对模型推理效率的要求也越来越高,dInfer的出现可谓恰逢其时。
dInfer是专为扩散语言模型设计的,算法和系统深度协同的高性能推理框架。它能支持多种扩散语言模型,像LLaDA、LLaDA - MoE、LLaDA - MoE - TD等都不在话下。
它包含四大核心模块,分别是模型接入(Model)、KV缓存管理器(KV - Cache Manager)、扩散迭代管理器(Iteration Manager)和解码策略(Decoder)。
这种可插拔的架构,就像给开发者提供了乐高积木,能让他们自由组合和探索不同模块的优化策略,还能在统一平台上进行标准化评测。而且啊,dInfer针对前面说的三大挑战,在每个模块里都集成了专门的解决方案。
在配备8块NVIDIA H800GPU的节点上,dInfer的性能表现相当亮眼。在基准测试里,和英伟达扩散模型框架Fast - dLLM比,dInfer把扩散语言模型的推理速度提升了10.7倍;
在代码生成任务HumanEval上,单批次推理速度达到了1011Tokens/秒,首次在开源社区实现了扩散语言模型单批次推理速度显著超越自回归模型。和在业界顶尖推理服务框架vLLM上运行、参数量和性能相当的AR模型Qwen2.5 - 3B相比,dInfer的平均推理速度是它的2.5倍。
蚂蚁集团介绍说,dInfer连接了前沿研究和产业落地,是扩散语言模型从“理论可行”迈向“实践高效”的关键一步。这次开源,也是诚邀全球的开发者与研究人员一起,挖掘扩散语言模型的巨大潜能,构建更高效、开放的AI新生态。相信在大家的共同努力下,AI领域会迎来更多惊喜。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: