每日AI资讯-2025年12月23日-AITOP100,AI资讯

MiniMax M2.1开源模型上线编码能力超越多款闭源模型

近日，MiniMax Agent平台正式推出开源编码与代理模型MiniMax M2.1。这款专为真实编码场景和AI组织设计的模型，凭借100亿激活量成为当前开源领域的佼佼者。

在核心测试中，该模型表现亮眼：

SWE - multilingual测试得分72.5%；
新发布的VIBE - bench测试斩获88.6%的高分，成功超越Gemini3Pro、Claude4.5Sonnet等主流闭源模型。

除了上述两项测试，MiniMax M2.1在SWE - Verified、Multi - SWE等多个权威指标中均表现优异。其中VIBE - bench作为覆盖网页开发、Android、iOS及后端工作流的全面编码基准，其高分成绩充分证明了模型的全场景适配能力。值得一提的是，在多语言编程领域，该模型在Rust、Java、Go等八种主流编程语言中均达到行业顶尖水平。

MiniMax团队在发布活动中感谢了早期合作伙伴与开发者的支持。巧合的是，前一日GLM模型刚发布，两者在SWE - Bench测试中数据相近，这一现象也凸显了当前开源模型的强劲实力，既能比肩甚至超越闭源模型，又保持了高水平的开放性，为开发者社区带来新活力。

详情查看：MiniMax Agent平台重磅上线开源模型MiniMax M2.1，开源编码界迎来新王者

MiniMax M2.1

生数科技联合清华推出TurboDiffusion视频生成加速框架：视频生成提速200倍

近日，生数科技与清华大学TSAIL实验室联合发布开源视频生成加速框架TurboDiffusion。该框架在几乎不损失生成质量的前提下，实现最高200倍的推理加速，有望破解视频生成技术落地的效率瓶颈。这一成果发布后，迅速引发行业关注，被认为将推动AI视频创作向实时化方向迈进。

以往视频扩散模型虽创意能力突出，但因计算复杂度高导致效率低下，难以大规模应用。TurboDiffusion并非简单优化，而是通过多项前沿技术组合实现全面提速。其核心技术包括：

低比特注意力加速技术SageAttention，可在低比特Tensor Core上无损提升注意力计算效率；
稀疏 - 线性注意力加速技术则能在SageAttention基础上再实现17 - 20倍稀疏加速。

此外，框架引入最新蒸馏方法rCM，使模型仅需3 - 4步即可生成高质量视频，大幅缩短生成周期。TurboDiffusion的推出，让高质量视频生成逐渐接近实时交互标准，标志着AI视频创作进入“实时生成”时代，将推动行业从技术探索阶段加速向规模化商业化落地转型，为影视、广告等领域带来全新可能。

项目地址： https://github.com/thu-ml/TurboDiffusion

urboDiffusion视频生成加速框架

谷歌DeepMind发布Gemma Scope2，助力Gemma3模型可解释性研究

谷歌DeepMind近日推出开放可解释性工具套件Gemma Scope2，专门用于分析Gemma3系列语言模型的内部信息处理机制，覆盖从2.7亿到270亿参数的全尺寸模型。该工具的核心价值在于为AI安全与对齐团队提供精准追踪模型行为的能力，助力解决模型“越狱”、幻觉、谄媚等问题。

Gemma Scope2本质是一套稀疏自编码器及相关工具集合，通过训练适配Gemma3模型的内部激活数据，将高维激活信息分解为人类可检视的稀疏特征，如同为模型配备“显微镜”。为完成训练，团队存储了约110PB激活数据，适配的可解释性模型总参数超1万亿，规模远超同类工具。

相较于初代版本，Gemma Scope2实现四大升级：

覆盖全Gemma3系列，支持270亿参数大模型突现行为研究；
配备各层专属稀疏自编码器和转码器，可追踪跨层多步骤计算；
采用“Matryoshka”训练技术，提升特征稳定性；
新增聊天模型专用工具，支持越狱、拒绝机制等多步骤行为分析。

该工具的开放，将为大模型安全研究提供重要支撑。

项目介绍地址： https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

Gemma Scope2

火山引擎敲定2026春晚独家AI云合作，豆包将推多元互动玩法

据《晚点 LatePost》独家报道，字节跳动旗下火山引擎已正式成为2026年中央广播电视总台春节联欢晚会独家AI云合作伙伴，旗下智能助手“豆包”将深度参与，推出多种AI互动玩法。借助春晚这一国民级IP的流量优势，字节跳动有望实现AI战略的跨越式突破，复制当年微信、支付宝借春晚破局的成功路径。

回顾行业历史：

2015年微信支付通过春晚“摇一摇”红包完成2亿次银行卡绑定，奠定支付领域地位；
2016年支付宝“集五福”活动同样大获成功，验证了春晚的流量爆发力。

如今字节跳动选择在春晚布局AI，背后是其夺取全球AI领域领导地位的战略目标。据《金融时报》披露，字节跳动已制定宏大财务计划，2026年资本支出预计达230亿美元，其中850亿元将专项用于AI处理器采购。

此次合作对火山引擎而言，不仅需要承载春晚超高并发的算力挑战，更重要的是借助春晚流量让豆包AI走进千家万户，完成从技术储备到国民级应用的转型。业内认为，这一合作将成为字节跳动AI生态落地的关键节点，推动其AI技术在大众场景的普及。

详情查看：从红包大战到AI对决，火山引擎或成2026春晚独家AI云搭档

豆包AI

文心5.0 Preview登顶LMArena中国区国产大模型获国际认可

全球权威大模型测评平台LMArena近日更新排名，百度新一代全模态大模型ERNIE - 5.0 - Preview - 1203以1451分登顶文本榜单中国区首位。这一成绩标志着国产原生大模型在国际主流测评体系中实现里程碑式突破，展现出与国际顶尖模型抗衡的实力。

测评数据显示，文心5.0 Preview综合能力突出，尤其在创意写作和复杂指令理解方面表现优异。该模型能精准捕捉用户深层需求，生成内容结构清晰、逻辑一致性强，超过多款国内外主流模型。此前在视觉理解榜单中，文心5.0 Preview已稳居国内首位，全模态优势初步显现。

作为百度2025年11月发布的旗舰级模型，文心5.0参数量达2.4万亿，采用原生全模态统一建模技术，并非简单拼接不同模态模型，而是实现文本、图像、音频、视频等信息的原生融合，充分发挥全模态协同效应，降低复杂任务处理门槛。从2019年首次发布至今，文心系列历经多次迭代，此次登顶不仅是参数堆叠的成果，更体现了国产大模型在中文语境处理和复杂逻辑任务上的成熟度提升。

详情查看：国产大模型逆袭！文心5.0 Preview登顶LMArena中国榜首

文心5.0 Preview

全球首个专为人工智能设计的工作智能操作系统Agent OS

2025年12月23日，钉钉在AI钉钉1.1新品发布暨生态大会上，推出全球首个专为人工智能设计的工作智能操作系统Agent OS。该系统的发布标志着“人与AI协同”工作方式正式落地，彰显了钉钉在企业级AI生态建设中的前瞻布局。

钉钉创始人兼CEO陈航（花名无招）表示，AI钉钉1.1版本命名“木兰”，寓意继1.0版本“蕨”之后，AI协作时代的新生。未来钉钉平台所有AI Agent都将基于Agent OS构建运行，实现AI与物理世界的直接连接。该系统核心优势在于强大的AI Agent协作能力，通过以下产品构建起完整的人机协同架构：

钉钉ONE界面；
专属AI硬件DingTalk Real；
AI搜问；
通用任务Agent悟空。

发布会上，钉钉同步推出20余款AI产品，包括制造业专属的“订单Agent”“质量Agent”，可快速将订单图片转化为排产表格并提供故障预测；“AI差旅”1分钟完成行程规划比价，助企业降本15%；“AI客服”可在知识不完备情况下冷启动并持续进化。此外，AI钉钉1.1版本还升级了AI搜问、同声传译等功能，适配出海企业需求。钉钉表示，Agent OS将全面开放，与合作伙伴共建企业级AI生态。

详情查看：钉钉推出全球首个专为人工智能打造的工作智能操作系统Agent OS与多款AI产品

AI钉钉

字节跳动计划2026年投入230亿美元加码AI基础设施建设

据《金融时报》及多方知情人士披露，字节跳动为缩短与国际科技巨头的AI领域差距，已初步制定2026年资本支出计划，预计投入230亿美元（约1600亿元人民币）用于AI基础设施建设，较2025年预期的1500亿元进一步扩大规模，展现出强劲的扩张意愿。

在这份天价预算中，约850亿元将专项用于采购先进半导体制程AI处理器。尽管面临地缘政治带来的供应链不确定性，字节跳动仍推进采购计划，消息显示其计划在销售获批后，首批试购2万台英伟达H200芯片，单台单价约2万美元。业内分析，若未来出口限制放宽，字节跳动2026年AI基建投入可能进一步攀升。

需要注意的是，230亿美元的投入虽在国内行业内位居前列，但与硅谷四巨头仍有差距——微软、Alphabet、亚马逊、Meta 2025年在AI数据中心的总投入已超3000亿美元。尽管字节跳动曾对部分支出细节报道表示“不准确”，但近期频繁的算力招标、与优奇等企业的能源合作协议，均印证其已进入AI基础设施建设的“爆发期”，加速推进算力布局。

字节跳动