最近啊,蚂蚁集团Ling团队在Arxiv预印版平台上发了一篇超牛的论文,名字就叫《每一个FLOP都至关重要:不用高级GPU也能搞定3000亿参数混合专家LING大模型》。这论文里,他们秀出了两款新研发的大语言模型,一个叫百灵轻量版(Ling-Lite),另一个叫百灵增强版(Ling-Plus)。这俩模型啊,设计得特别巧妙,能在性能一般的硬件上高效训练,成本一下子就降下来了。
百灵轻量版呢,参数规模有168亿,激活参数是27.5亿。增强版更厉害,基座模型参数高达2900亿,激活参数也有288亿。这两款模型的性能啊,在行业里都是数一数二的。特别是增强版,它那3000亿参数的MoE模型,用国产GPU在低性能设备上训练,效果跟用高端英伟达芯片驱动的模型比起来,一点儿都不逊色。
以前啊,训练MoE模型都得靠那些贵得离谱的高性能GPU,像英伟达的H100和H800。这成本啊,高得吓人,而且芯片还经常短缺,资源受限的环境里根本就用不起。蚂蚁集团Ling团队呢,就给自己定了个新目标——不用高级GPU也能扩展模型,这样就能突破资源和预算的限制了。他们用了好多创新的训练策略,比如动态参数分配、混合精度调度,还有优化的训练异常处理机制。这些策略啊,能让中断响应时间变短,模型评估流程也更优化,验证周期直接压缩了超过50%。
在实验里,Ling团队用了9万亿个token来预训练Ling-Plus。结果呢,用高性能硬件配置训练1万亿token得花635万元人民币,但用蚂蚁的优化方法,在低规格硬件上训练就只要508万元左右,节省了将近20%呢!而且啊,这性能跟阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat比起来,一点儿都不差。
要是这技术成果能广泛应用起来,那国产大模型就有更经济高效的解决方案了,也不用那么依赖英伟达芯片了。这啊,给未来人工智能的发展又开辟了一条新路!