昆仑万维放大招!Mureka V7音乐模型和TTS V1音频模型闪亮登场
7月23号,昆仑万维集团给全球用户带来了俩超厉害的AI模型——Mureka V7音乐模型和Mureka TTS V1音频模型,这可是AI音乐生成领域的一大进步。
Mureka V7音乐模型一出来就吸引了好多人关注。用它做音乐可简单了,你只要输入歌词,选好风格或者主题,点一下生成,很快就能得到一首好听又完整的音乐作品,传统音乐制作那复杂的流程直接被简化了。它还提升了旋律动机和编曲质量,让人声和乐器听起来更真实,每首歌都超有魅力。背后的MusiCoT技术,先结构后生成,解决了传统模型全局性不足的问题,让音乐更有连贯性和艺术性。而且它还支持参考样式输入,创作更灵活创新。
另外,昆仑万维还首次推出了Mureka TTS V1音频模型。这个模型能进行Voice Design音色设计,你通过文本输入就能自定义语音特征,获得个性化音色。不管是真实人物、虚拟人物还是配音角色,都能轻松定制音色,摆脱了传统音色库的限制。在技术指标上,它的语音质量、文字切分和段落准确性都达到了行业领先水平,语音体验更流畅自然。
Mureka V7和Mureka TTS V1的发布,不仅展示了昆仑万维在AI音乐生成领域的实力,也预示着AI音乐生成要往“人性化”方向发展了。未来,昆仑万维还会继续迭代技术,让更多音乐爱好者能享受创作音乐的乐趣。
体验地址:Mureka网页版官网入口
Kimi K2技术报告来袭,看它咋在全球开源赛场“称王称霸”
近日,Kimi团队发布了Kimi K2的技术报告,揭开了这款新模型背后的训练秘密。Kimi K2参数总量有1万亿,激活参数高达320亿,实力超强。上线才一周,就在全球开源模型竞赛中拿了冠军,超过了DeepSeek,和Grok4、GPT4.5等顶尖闭源模型不相上下。
Kimi K2能成功,靠的是创新的训练方法和技术架构。团队引入了MuonClip优化器,替代了传统的Adam优化器,结合高效的token使用和稳定性,在预训练阶段无损失地处理了15.5万亿token的数据。还开发了大规模的Agentic Tool Use数据合成pipeline,覆盖多个领域和工具,给模型提供了丰富的训练场景。
训练中,Kimi K2采用“重述法”提高数据效率,不是简单重复,而是用不同方式重新表达知识内容,让模型真正理解信息。处理数学和知识类文本时,把复杂内容改写成易懂的学习笔记风格,训练效果更好。数据显示,用重写数据训练一轮,准确率比用原始数据训练十轮还高。
后训练阶段,Kimi K2进行了监督微调和强化学习,构建可验证的奖励环境和自我评估机制,确保模型在多样化任务中不断优化。还引入了预算控制和温度衰减策略,提高生成文本的质量和稳定性。而且,它依托NVIDIA H800构成的大规模高带宽GPU集群,保证了训练效率和数据传输的高效性。Kimi K2的发布,给开源模型发展注入了新活力。
体验地址:kimi ai网页版官网入口 (在首页即可体验kimi k2模型)
谷歌Gemini 2.5 Flash-Lite稳定版发布,速度成本双优超厉害
近日,谷歌宣布其最新的Gemini2.5Flash-Lite模型进入稳定版本(GA)。这可是速度最快、成本最低的模型,标志着谷歌在人工智能领域又有了重要进展。
Gemini2.5Flash-Lite在性能和成本之间找到了很好的平衡点,能原生支持高达100万token的上下文,带来了好多高级功能。它的定价策略也很吸引人,每百万输入token的费用只要0.10美元,每百万输出token的费用是0.40美元,和竞争对手GPT - 4.1Nano价格差不多。而且,和早期的预览版比起来,这个模型在音频输入方面的定价降低了40%,能看出谷歌对用户需求的关注和对市场竞争的回应。
在各项基准测试中,Gemini2.5Flash-Lite的表现超过了之前的2.0版本,涵盖了编码、数学、推理和多模态理解等多个领域。它支持100万token的上下文窗口,有可控的思考预算,还提供了多种原生工具,像和Google搜索结合、代码执行以及URL上下文的功能。
开发者们用起来也很方便,通过简单的代码指令,指定模型为gemini-2.5-flash-lite就行。不过要注意,原有的预览版别名计划8月25号就移除了,开发者们得尽快适应新版本。
Gemini2.5Flash-Lite的发布,体现了谷歌在人工智能技术上不断创新和优化的决心,给开发者提供了更高效且经济实惠的选择,未来肯定会在很多应用场景中发挥大作用。
详情查看:谷歌Gemini 2.5 Flash-Lite稳定版发布:速度、成本双突破,开发者新利器来了!
李开复零一万物放大招,企业级智能体“万仔”闪亮登场
零一万物在北京开了个盛大的产品发布会,推出了全新版本的万智企业大模型一站式平台(万智平台)2.0,还正式发布了代号为“万仔”的企业级智能体(AI Agent)。
“万仔”这个创新产品,定位是“超级员工”。它有深度思考和任务规划能力,能访问手机和网络端,连接各种企业服务。企业可以根据自身业务需求定制专属智能体,解决实际问题。
它通过自主研发的强化学习和全栈研发技术,提高了任务规划能力。结合企业的知识库和生产任务,以交付结果为目标,动态生成执行计划,从“工具流执行者”变成了“人机共同决策者”。而且,它还支持私有化部署和结果校验,能保证企业的数据安全和隐私。
零一万物的首席执行官李开复说,企业级智能体已经进入推理Agent阶段,技术水平跟OpenAI最近发布的ChatGPT Agent差不多。他还预测AI智能体发展会经历三个阶段,先是L1阶段的工作流智能体,依赖人类主导任务规划与决策;接着是L2阶段的推理智能体,能自主判断任务步骤,调度多种工具完成复杂目标;最后是L3阶段的多智能体协作,多个AI智能体有机协作,自主分配任务和调度资源,重构企业运作模式。
零一万物的这些创新,展示了在AI领域的领先技术,也给企业数字化转型提供了新方案,推动了行业变革。
详情查看:零一万物发布万智平台2.0和“万仔”智能体,企业AI现在更注重实际效果了
体验地址:零一万物网页版官网入口
通义千问开源Qwen3-Coder,智能编程开启全新时代
7月23号,阿里云宣布其最新的AI编程大模型Qwen3 - Coder全面开源,一下子在智能编程领域掀起了热潮。Qwen3 - Coder在代码生成和Agent能力方面表现卓越,在Agentic Coding、Agentic Browser - Use及基础编码任务上都达到了开源模型的顶尖水平,标志着智能编程技术进入了新阶段。
Qwen3 - Coder模型系列有多个尺寸可选,这次率先开源的是最强大的版本——Qwen3 - Coder - 480B - A35B - Instruct。它采用先进的MoE架构,参数量高达480B,激活参数达35B,原生支持256K上下文,还能通过YaRN技术扩展至1M长度,处理大规模代码库和动态数据的能力超强。
预训练阶段,通义团队通过多维度扩展策略提升了Qwen3 - Coder的代码能力。训练数据总计7.5T,其中代码占比70%,保证了模型有卓越的编程能力。上下文扩展方面,原生支持的长上下文处理能力,专为仓库级代码和动态数据优化,提升了Agentic Coding的效率和准确性。还通过合成数据扩展技术,用Qwen2.5 - Coder清洗和重写低质数据,提高了数据质量。
后训练阶段,团队采用执行驱动的大规模强化学习策略,构造了大量高质量训练实例,提升了代码执行成功率,对其他任务也有积极影响。在真实世界的软件工程任务中,Qwen3 - Coder展现了出色的自主规划、工具调用和决策能力。
通义团队还开源了命令行工具Qwen Code,方便开发者使用。而且Qwen3 - Coder的API能和Claude Code、Cline等优秀编程工具协同使用。目前,它已在魔搭社区、HuggingFace等平台全面开源,全球开发者都能免费下载使用,还会很快接入阿里的AI编程产品通义灵码,阿里云百炼平台也上线了它的API。
详情查看:最新开源!通义千问发布Qwen3-Coder编程大模型
腾讯自主研发的混元ASR大模型接入ima平台,语音输入开启便捷新体验
7月22号,腾讯混元宣布其自主研发的ASR(语音识别)大模型正式应用于ima平台,在手机App端实现了语音输入功能,给用户带来了“出口成章”的便捷体验。现在用户不用手动敲键盘,直接用语音就能输入问题或者记录灵感,输入效率大大提高。
腾讯混元ASR大模型特别厉害,在复杂环境下也能准确识别语音,每分钟能识别300字,速度比手动输入快4倍,而且识别结果更精准自然。它采用了业界首个基于双编码器的流式ASR架构,和传统ASR技术比起来,语义理解能力提升了很多,在中英文混杂等场景中表现更出色。
ima平台引入语音输入功能后,覆盖了知识库问答、笔记创作等多个应用场景。用户在进行知识库查询或者首页问答时,问题长的话可以直接语音输入;写笔记的时候,ima就像个会听音的笔记小助手,能帮用户创作,还能根据旧笔记快捷续写,实现无缝衔接。iOS用户还能通过添加桌面小组件,更快速地提问。
腾讯混元团队表示,未来会继续优化ASR大模型,提升方言识别和多语言识别能力,扩充支持的语言类型,满足不同场景下的使用需求。这次语音输入功能的上线,展示了腾讯混元在语音识别领域的技术实力,也给用户带来了更高效、便捷的输入方式,开启了智能交互的新篇章。
体验地址:腾讯ima平台网页版官网入口
人机交互迎巨变!Hedra Live Avatars发布,超低至0.05美元/分钟引爆视频AI代理革命
2025年7月22号,Hedra实验室推出了号称全球最先进的流媒体头像模型——Hedra Live Avatars,这可是视频AI代理领域的一大突破,以低成本、超低延迟和高度灵活性为亮点,给内容创作者、营销团队和企业用户带来了新可能。
Hedra Live Avatars优点超多。成本超低,每分钟只要0.05美元,比现有解决方案便宜15倍,不管是个人创作者还是大型企业都能用得起。延迟超低,依托LiveKit的全球基础设施,响应时间低于100毫秒,直播、虚拟会议和在线教育等场景都能流畅使用。灵活性也高,兼容主流大语言模型和文本转语音技术,像谷歌的Gemini和OpenAI的语音模型,用户能自由搭配,打造个性化交互体验。风格还多样,不管是逼真的写实风格、动态的动画效果,还是独特的艺术化风格,都能从单一静态图像生成多样化的数字头像。
它的应用场景也很广泛。内容创作与社交媒体方面,创作者能利用它生成虚拟主播或动画角色,用于短视频内容制作,低成本高效率,适合独立创作者和小型团队。教育与培训方面,能生成虚拟教师或讲解员,让在线课程和企业培训更生动直观。客户服务与营销方面,企业可以用它打造虚拟客服或品牌代言人,提升用户体验,降低视频制作成本。游戏与虚拟现实方面,风格无关特性让它在游戏开发和VR场景中表现出色,开发者能快速生成多样化的虚拟角色。
Hedra还为用户提供了免费试用机会,在Hedra官网就能体验核心功能。不过,部分用户反馈它在处理非正面视角图像时可能有局限,Hedra团队也承诺会持续优化模型。
体验地址:Hedra AI网页版官网入口
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: