蚂蚁百灵团队开源新一代高效推理模型Ring-mini-sparse-2.0-exp-AITOP100,AI资讯

在AI技术日新月异的2025年，模型迭代升级就像一场激烈的科技竞赛，各大团队都在争分夺秒地推陈出新。这不，2025年10月20日，蚂蚁百灵大模型团队又有大动作，正式上线了其全新高效推理模型——Ring-mini-sparse-2.0-exp。这消息一出来，就像在AI圈里扔了一颗“重磅炸弹”，瞬间吸引了无数目光。难道它不能成为解决长序列推理难题的“利器”吗？和之前的模型相比，它的升级可谓是脱胎换骨。

项目地址： https://github.com/inclusionAI/Ring-V2/tree/main/moba

创新架构：稀疏与专家结构的完美融合

Ring-mini-sparse-2.0-exp基于Ling2.0架构，这可是团队精心打造的“智慧基石”。为了在长序列解码上大显身手，它采用了创新的稀疏注意力机制。这一新架构可不简单，它将高稀疏比的Mixture of Expert（MoE）结构与稀疏注意力机制巧妙地结合在一起。就好比给模型装上了一对“超级翅膀”，让它在复杂长序列推理场景下能够自由翱翔，大大提升了模型的表现。

你知道吗？AI模型在处理复杂任务时，就像一个厨师面对一堆复杂的食材，需要精准地挑选和处理。Ring-mini-sparse-2.0-exp的这种创新架构，就像是给厨师配备了一套智能厨具，让烹饪过程更加高效和精准。

性能飙升：吞吐量提升近三倍

团队在架构与推理框架上下了大功夫，进行了深度协同优化。这一番努力没有白费，Ring-mini-sparse-2.0-exp在处理长序列时的表现十分惊艳。和它的前身Ring-mini-2.0相比，吞吐量提高了近三倍。这就好比一辆汽车，原本只能跑一定的速度，现在经过升级改造，速度大幅提升，能够更快地到达目的地。

在多项高难度推理基准测试中，Ring-mini-sparse-2.0-exp更是持续保持了SOTA（State of the Art）性能。它就像一个考试中的“学霸”，无论面对多难的题目，都能轻松应对，展示出了出色的上下文处理能力和高效推理能力。这也为开源社区提供了新的轻量化解决方案，让更多的开发者能够受益。

Ring-mini-2.0与Ring-mini-sparse-2.0-exp性能对比

对比项目	Ring-mini-2.0	Ring-mini-sparse-2.0-exp
处理长序列吞吐量	相对较低	提高近三倍
高难度推理基准测试性能	一般	持续保持SOTA
上下文处理能力	有限	出色
高效推理能力	普通	高效

架构升级：解决核心趋势难题

Ling2.0Sparse架构可不是凭空出现的，它是团队为了解决大语言模型未来发展中的两个核心趋势而精心打造的。这两个趋势就是上下文长度的升级至和测试时的扩展。团队借鉴了Mixture of Block Attention （MoBA）的设计思路，采用了块级稀疏注意力（block-wise sparse attention）。这就好比把一堆杂乱的文件按类别整理成一个个文件夹，将输入的Key和Value按块划分，每个query在head维度上进行top-k块选择。

只有在选中的块上进行softmax计算，这样就大大降低了计算开销。而且，团队还将MoBA设计与Grouped Query Attention （GQA）结合，让同一组内的query heads共享top-k块选择结果，进一步减少了I/O开销。这就好比在文件整理过程中，通过合理的分类和共享，让整个流程更加高效。