蚂蚁集团Ling团队放大招！低成本也能训出3000亿参数大模型，国产GPU要火-AITOP100,AI资讯

最近啊，蚂蚁集团Ling团队在Arxiv预印版平台上发了一篇超牛的论文，名字就叫《每一个FLOP都至关重要：不用高级GPU也能搞定3000亿参数混合专家LING大模型》。这论文里，他们秀出了两款新研发的大语言模型，一个叫百灵轻量版（Ling-Lite），另一个叫百灵增强版（Ling-Plus）。这俩模型啊，设计得特别巧妙，能在性能一般的硬件上高效训练，成本一下子就降下来了。

百灵轻量版呢，参数规模有168亿，激活参数是27.5亿。增强版更厉害，基座模型参数高达2900亿，激活参数也有288亿。这两款模型的性能啊，在行业里都是数一数二的。特别是增强版，它那3000亿参数的MoE模型，用国产GPU在低性能设备上训练，效果跟用高端英伟达芯片驱动的模型比起来，一点儿都不逊色。

以前啊，训练MoE模型都得靠那些贵得离谱的高性能GPU，像英伟达的H100和H800。这成本啊，高得吓人，而且芯片还经常短缺，资源受限的环境里根本就用不起。蚂蚁集团Ling团队呢，就给自己定了个新目标——不用高级GPU也能扩展模型，这样就能突破资源和预算的限制了。他们用了好多创新的训练策略，比如动态参数分配、混合精度调度，还有优化的训练异常处理机制。这些策略啊，能让中断响应时间变短，模型评估流程也更优化，验证周期直接压缩了超过50%。

在实验里，Ling团队用了9万亿个token来预训练Ling-Plus。结果呢，用高性能硬件配置训练1万亿token得花635万元人民币，但用蚂蚁的优化方法，在低规格硬件上训练就只要508万元左右，节省了将近20%呢！而且啊，这性能跟阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat比起来，一点儿都不差。

要是这技术成果能广泛应用起来，那国产大模型就有更经济高效的解决方案了，也不用那么依赖英伟达芯片了。这啊，给未来人工智能的发展又开辟了一条新路！