每日AI资讯-2025年07月23日-AITOP100,AI资讯

昆仑万维放大招！Mureka V7音乐模型和TTS V1音频模型闪亮登场

7月23号，昆仑万维集团给全球用户带来了俩超厉害的AI模型——Mureka V7音乐模型和Mureka TTS V1音频模型，这可是AI音乐生成领域的一大进步。

Mureka V7音乐模型一出来就吸引了好多人关注。用它做音乐可简单了，你只要输入歌词，选好风格或者主题，点一下生成，很快就能得到一首好听又完整的音乐作品，传统音乐制作那复杂的流程直接被简化了。它还提升了旋律动机和编曲质量，让人声和乐器听起来更真实，每首歌都超有魅力。背后的MusiCoT技术，先结构后生成，解决了传统模型全局性不足的问题，让音乐更有连贯性和艺术性。而且它还支持参考样式输入，创作更灵活创新。

另外，昆仑万维还首次推出了Mureka TTS V1音频模型。这个模型能进行Voice Design音色设计，你通过文本输入就能自定义语音特征，获得个性化音色。不管是真实人物、虚拟人物还是配音角色，都能轻松定制音色，摆脱了传统音色库的限制。在技术指标上，它的语音质量、文字切分和段落准确性都达到了行业领先水平，语音体验更流畅自然。

Mureka V7和Mureka TTS V1的发布，不仅展示了昆仑万维在AI音乐生成领域的实力，也预示着AI音乐生成要往“人性化”方向发展了。未来，昆仑万维还会继续迭代技术，让更多音乐爱好者能享受创作音乐的乐趣。

体验地址：Mureka网页版官网入口

Mureka

Kimi K2技术报告来袭，看它咋在全球开源赛场“称王称霸”

近日，Kimi团队发布了Kimi K2的技术报告，揭开了这款新模型背后的训练秘密。Kimi K2参数总量有1万亿，激活参数高达320亿，实力超强。上线才一周，就在全球开源模型竞赛中拿了冠军，超过了DeepSeek，和Grok4、GPT4.5等顶尖闭源模型不相上下。

Kimi K2能成功，靠的是创新的训练方法和技术架构。团队引入了MuonClip优化器，替代了传统的Adam优化器，结合高效的token使用和稳定性，在预训练阶段无损失地处理了15.5万亿token的数据。还开发了大规模的Agentic Tool Use数据合成pipeline，覆盖多个领域和工具，给模型提供了丰富的训练场景。

训练中，Kimi K2采用“重述法”提高数据效率，不是简单重复，而是用不同方式重新表达知识内容，让模型真正理解信息。处理数学和知识类文本时，把复杂内容改写成易懂的学习笔记风格，训练效果更好。数据显示，用重写数据训练一轮，准确率比用原始数据训练十轮还高。

后训练阶段，Kimi K2进行了监督微调和强化学习，构建可验证的奖励环境和自我评估机制，确保模型在多样化任务中不断优化。还引入了预算控制和温度衰减策略，提高生成文本的质量和稳定性。而且，它依托NVIDIA H800构成的大规模高带宽GPU集群，保证了训练效率和数据传输的高效性。Kimi K2的发布，给开源模型发展注入了新活力。

体验地址：kimi ai网页版官网入口（在首页即可体验kimi k2模型）

Kimi K2

谷歌Gemini 2.5 Flash-Lite稳定版发布，速度成本双优超厉害

近日，谷歌宣布其最新的Gemini2.5Flash-Lite模型进入稳定版本（GA）。这可是速度最快、成本最低的模型，标志着谷歌在人工智能领域又有了重要进展。

Gemini2.5Flash-Lite在性能和成本之间找到了很好的平衡点，能原生支持高达100万token的上下文，带来了好多高级功能。它的定价策略也很吸引人，每百万输入token的费用只要0.10美元，每百万输出token的费用是0.40美元，和竞争对手GPT - 4.1Nano价格差不多。而且，和早期的预览版比起来，这个模型在音频输入方面的定价降低了40%，能看出谷歌对用户需求的关注和对市场竞争的回应。

在各项基准测试中，Gemini2.5Flash-Lite的表现超过了之前的2.0版本，涵盖了编码、数学、推理和多模态理解等多个领域。它支持100万token的上下文窗口，有可控的思考预算，还提供了多种原生工具，像和Google搜索结合、代码执行以及URL上下文的功能。

开发者们用起来也很方便，通过简单的代码指令，指定模型为gemini-2.5-flash-lite就行。不过要注意，原有的预览版别名计划8月25号就移除了，开发者们得尽快适应新版本。

Gemini2.5Flash-Lite的发布，体现了谷歌在人工智能技术上不断创新和优化的决心，给开发者提供了更高效且经济实惠的选择，未来肯定会在很多应用场景中发挥大作用。

详情查看：谷歌Gemini 2.5 Flash-Lite稳定版发布：速度、成本双突破，开发者新利器来了！

谷歌Gemini 2.5 Flash-Lite稳定版发布

李开复零一万物放大招，企业级智能体“万仔”闪亮登场

零一万物在北京开了个盛大的产品发布会，推出了全新版本的万智企业大模型一站式平台（万智平台）2.0，还正式发布了代号为“万仔”的企业级智能体（AI Agent）。

“万仔”这个创新产品，定位是“超级员工”。它有深度思考和任务规划能力，能访问手机和网络端，连接各种企业服务。企业可以根据自身业务需求定制专属智能体，解决实际问题。

它通过自主研发的强化学习和全栈研发技术，提高了任务规划能力。结合企业的知识库和生产任务，以交付结果为目标，动态生成执行计划，从“工具流执行者”变成了“人机共同决策者”。而且，它还支持私有化部署和结果校验，能保证企业的数据安全和隐私。

零一万物的首席执行官李开复说，企业级智能体已经进入推理Agent阶段，技术水平跟OpenAI最近发布的ChatGPT Agent差不多。他还预测AI智能体发展会经历三个阶段，先是L1阶段的工作流智能体，依赖人类主导任务规划与决策；接着是L2阶段的推理智能体，能自主判断任务步骤，调度多种工具完成复杂目标；最后是L3阶段的多智能体协作，多个AI智能体有机协作，自主分配任务和调度资源，重构企业运作模式。

零一万物的这些创新，展示了在AI领域的领先技术，也给企业数字化转型提供了新方案，推动了行业变革。

详情查看：零一万物发布万智平台2.0和“万仔”智能体，企业AI现在更注重实际效果了

体验地址：零一万物网页版官网入口

零一万物

通义千问开源Qwen3-Coder，智能编程开启全新时代

7月23号，阿里云宣布其最新的AI编程大模型Qwen3 - Coder全面开源，一下子在智能编程领域掀起了热潮。Qwen3 - Coder在代码生成和Agent能力方面表现卓越，在Agentic Coding、Agentic Browser - Use及基础编码任务上都达到了开源模型的顶尖水平，标志着智能编程技术进入了新阶段。

Qwen3 - Coder模型系列有多个尺寸可选，这次率先开源的是最强大的版本——Qwen3 - Coder - 480B - A35B - Instruct。它采用先进的MoE架构，参数量高达480B，激活参数达35B，原生支持256K上下文，还能通过YaRN技术扩展至1M长度，处理大规模代码库和动态数据的能力超强。

预训练阶段，通义团队通过多维度扩展策略提升了Qwen3 - Coder的代码能力。训练数据总计7.5T，其中代码占比70%，保证了模型有卓越的编程能力。上下文扩展方面，原生支持的长上下文处理能力，专为仓库级代码和动态数据优化，提升了Agentic Coding的效率和准确性。还通过合成数据扩展技术，用Qwen2.5 - Coder清洗和重写低质数据，提高了数据质量。

后训练阶段，团队采用执行驱动的大规模强化学习策略，构造了大量高质量训练实例，提升了代码执行成功率，对其他任务也有积极影响。在真实世界的软件工程任务中，Qwen3 - Coder展现了出色的自主规划、工具调用和决策能力。

通义团队还开源了命令行工具Qwen Code，方便开发者使用。而且Qwen3 - Coder的API能和Claude Code、Cline等优秀编程工具协同使用。目前，它已在魔搭社区、HuggingFace等平台全面开源，全球开发者都能免费下载使用，还会很快接入阿里的AI编程产品通义灵码，阿里云百炼平台也上线了它的API。

详情查看：最新开源！通义千问发布Qwen3-Coder编程大模型

Qwen3-Coder

腾讯自主研发的混元ASR大模型接入ima平台，语音输入开启便捷新体验

7月22号，腾讯混元宣布其自主研发的ASR（语音识别）大模型正式应用于ima平台，在手机App端实现了语音输入功能，给用户带来了“出口成章”的便捷体验。现在用户不用手动敲键盘，直接用语音就能输入问题或者记录灵感，输入效率大大提高。

腾讯混元ASR大模型特别厉害，在复杂环境下也能准确识别语音，每分钟能识别300字，速度比手动输入快4倍，而且识别结果更精准自然。它采用了业界首个基于双编码器的流式ASR架构，和传统ASR技术比起来，语义理解能力提升了很多，在中英文混杂等场景中表现更出色。

ima平台引入语音输入功能后，覆盖了知识库问答、笔记创作等多个应用场景。用户在进行知识库查询或者首页问答时，问题长的话可以直接语音输入；写笔记的时候，ima就像个会听音的笔记小助手，能帮用户创作，还能根据旧笔记快捷续写，实现无缝衔接。iOS用户还能通过添加桌面小组件，更快速地提问。

腾讯混元团队表示，未来会继续优化ASR大模型，提升方言识别和多语言识别能力，扩充支持的语言类型，满足不同场景下的使用需求。这次语音输入功能的上线，展示了腾讯混元在语音识别领域的技术实力，也给用户带来了更高效、便捷的输入方式，开启了智能交互的新篇章。

体验地址：腾讯ima平台网页版官网入口

腾讯ima平台

人机交互迎巨变！Hedra Live Avatars发布，超低至0.05美元/分钟引爆视频AI代理革命

2025年7月22号，Hedra实验室推出了号称全球最先进的流媒体头像模型——Hedra Live Avatars，这可是视频AI代理领域的一大突破，以低成本、超低延迟和高度灵活性为亮点，给内容创作者、营销团队和企业用户带来了新可能。

Hedra Live Avatars优点超多。成本超低，每分钟只要0.05美元，比现有解决方案便宜15倍，不管是个人创作者还是大型企业都能用得起。延迟超低，依托LiveKit的全球基础设施，响应时间低于100毫秒，直播、虚拟会议和在线教育等场景都能流畅使用。灵活性也高，兼容主流大语言模型和文本转语音技术，像谷歌的Gemini和OpenAI的语音模型，用户能自由搭配，打造个性化交互体验。风格还多样，不管是逼真的写实风格、动态的动画效果，还是独特的艺术化风格，都能从单一静态图像生成多样化的数字头像。

它的应用场景也很广泛。内容创作与社交媒体方面，创作者能利用它生成虚拟主播或动画角色，用于短视频内容制作，低成本高效率，适合独立创作者和小型团队。教育与培训方面，能生成虚拟教师或讲解员，让在线课程和企业培训更生动直观。客户服务与营销方面，企业可以用它打造虚拟客服或品牌代言人，提升用户体验，降低视频制作成本。游戏与虚拟现实方面，风格无关特性让它在游戏开发和VR场景中表现出色，开发者能快速生成多样化的虚拟角色。

Hedra还为用户提供了免费试用机会，在Hedra官网就能体验核心功能。不过，部分用户反馈它在处理非正面视角图像时可能有局限，Hedra团队也承诺会持续优化模型。

体验地址：Hedra AI网页版官网入口