• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

蚂蚁集团Ling团队放大招!低成本也能训出3000亿参数大模型,国产GPU要火

蚂蚁集团Ling团队放大招!低成本也能训出3000亿参数大模型,国产GPU要火
AI TOP100
2025-03-25 10:17:58

最近啊,蚂蚁集团Ling团队在Arxiv预印版平台上发了一篇超牛的论文,名字就叫《每一个FLOP都至关重要:不用高级GPU也能搞定3000亿参数混合专家LING大模型》。这论文里,他们秀出了两款新研发的大语言模型,一个叫百灵轻量版(Ling-Lite),另一个叫百灵增强版(Ling-Plus)。这俩模型啊,设计得特别巧妙,能在性能一般的硬件上高效训练,成本一下子就降下来了。

蚂蚁集团

百灵轻量版呢,参数规模有168亿,激活参数是27.5亿。增强版更厉害,基座模型参数高达2900亿,激活参数也有288亿。这两款模型的性能啊,在行业里都是数一数二的。特别是增强版,它那3000亿参数的MoE模型,用国产GPU在低性能设备上训练,效果跟用高端英伟达芯片驱动的模型比起来,一点儿都不逊色。

以前啊,训练MoE模型都得靠那些贵得离谱的高性能GPU,像英伟达的H100和H800。这成本啊,高得吓人,而且芯片还经常短缺,资源受限的环境里根本就用不起。蚂蚁集团Ling团队呢,就给自己定了个新目标——不用高级GPU也能扩展模型,这样就能突破资源和预算的限制了。他们用了好多创新的训练策略,比如动态参数分配、混合精度调度,还有优化的训练异常处理机制。这些策略啊,能让中断响应时间变短,模型评估流程也更优化,验证周期直接压缩了超过50%。

在实验里,Ling团队用了9万亿个token来预训练Ling-Plus。结果呢,用高性能硬件配置训练1万亿token得花635万元人民币,但用蚂蚁的优化方法,在低规格硬件上训练就只要508万元左右,节省了将近20%呢!而且啊,这性能跟阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat比起来,一点儿都不差。

要是这技术成果能广泛应用起来,那国产大模型就有更经济高效的解决方案了,也不用那么依赖英伟达芯片了。这啊,给未来人工智能的发展又开辟了一条新路!

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
相关资讯
  • 每日AI资讯-2025年07月11日

  • 腾讯混元Hunyuan-A13B模型API上线:AI开发新利器来袭

  • 墨刀AI正式上线:30秒让灵感秒变高保真可编辑原型!

  • Mistral AI新品Devstral2507:为开发者量身打造的代码神器

  • NVIDIA发布DiffusionRenderer AI模型,实现视频到可编辑逼真3D的飞跃。

热点资讯

夸克AI助力高考志愿填报,4000万考生家长的靠谱之选

4天前
夸克AI助力高考志愿填报,4000万考生家长的靠谱之选

豆包AI重磅更新:六大核心功能全面升级,开启智能办公新纪元

5天前
豆包AI重磅更新:六大核心功能全面升级,开启智能办公新纪元

Grok 4即将发布:马斯克xAI最新AI模型全面解析

4天前
Grok 4即将发布:马斯克xAI最新AI模型全面解析

AIGC大赛:北京动画周48小时AIGC原创动画挑战赛,邀您共赴创意盛宴!

2天前
AIGC大赛:北京动画周48小时AIGC原创动画挑战赛,邀您共赴创意盛宴!

AIGC大赛:2025新疆文旅AIGC宣传片创作大赛全球征片中

3天前
AIGC大赛:2025新疆文旅AIGC宣传片创作大赛全球征片中
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有