• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

每日AI资讯-2025年07月23日

每日AI资讯-2025年07月23日
AI TOP100
2天前

昆仑万维放大招!Mureka V7音乐模型和TTS V1音频模型闪亮登场

7月23号,昆仑万维集团给全球用户带来了俩超厉害的AI模型——Mureka V7音乐模型和Mureka TTS V1音频模型,这可是AI音乐生成领域的一大进步。

Mureka V7音乐模型一出来就吸引了好多人关注。用它做音乐可简单了,你只要输入歌词,选好风格或者主题,点一下生成,很快就能得到一首好听又完整的音乐作品,传统音乐制作那复杂的流程直接被简化了。它还提升了旋律动机和编曲质量,让人声和乐器听起来更真实,每首歌都超有魅力。背后的MusiCoT技术,先结构后生成,解决了传统模型全局性不足的问题,让音乐更有连贯性和艺术性。而且它还支持参考样式输入,创作更灵活创新。

另外,昆仑万维还首次推出了Mureka TTS V1音频模型。这个模型能进行Voice Design音色设计,你通过文本输入就能自定义语音特征,获得个性化音色。不管是真实人物、虚拟人物还是配音角色,都能轻松定制音色,摆脱了传统音色库的限制。在技术指标上,它的语音质量、文字切分和段落准确性都达到了行业领先水平,语音体验更流畅自然。

Mureka V7和Mureka TTS V1的发布,不仅展示了昆仑万维在AI音乐生成领域的实力,也预示着AI音乐生成要往“人性化”方向发展了。未来,昆仑万维还会继续迭代技术,让更多音乐爱好者能享受创作音乐的乐趣。

体验地址:Mureka网页版官网入口

Mureka

Kimi K2技术报告来袭,看它咋在全球开源赛场“称王称霸”

近日,Kimi团队发布了Kimi K2的技术报告,揭开了这款新模型背后的训练秘密。Kimi K2参数总量有1万亿,激活参数高达320亿,实力超强。上线才一周,就在全球开源模型竞赛中拿了冠军,超过了DeepSeek,和Grok4、GPT4.5等顶尖闭源模型不相上下。

Kimi K2能成功,靠的是创新的训练方法和技术架构。团队引入了MuonClip优化器,替代了传统的Adam优化器,结合高效的token使用和稳定性,在预训练阶段无损失地处理了15.5万亿token的数据。还开发了大规模的Agentic Tool Use数据合成pipeline,覆盖多个领域和工具,给模型提供了丰富的训练场景。

训练中,Kimi K2采用“重述法”提高数据效率,不是简单重复,而是用不同方式重新表达知识内容,让模型真正理解信息。处理数学和知识类文本时,把复杂内容改写成易懂的学习笔记风格,训练效果更好。数据显示,用重写数据训练一轮,准确率比用原始数据训练十轮还高。

后训练阶段,Kimi K2进行了监督微调和强化学习,构建可验证的奖励环境和自我评估机制,确保模型在多样化任务中不断优化。还引入了预算控制和温度衰减策略,提高生成文本的质量和稳定性。而且,它依托NVIDIA H800构成的大规模高带宽GPU集群,保证了训练效率和数据传输的高效性。Kimi K2的发布,给开源模型发展注入了新活力。

体验地址:kimi ai网页版官网入口 (在首页即可体验kimi k2模型)

Kimi K2

谷歌Gemini 2.5 Flash-Lite稳定版发布,速度成本双优超厉害

近日,谷歌宣布其最新的Gemini2.5Flash-Lite模型进入稳定版本(GA)。这可是速度最快、成本最低的模型,标志着谷歌在人工智能领域又有了重要进展。

Gemini2.5Flash-Lite在性能和成本之间找到了很好的平衡点,能原生支持高达100万token的上下文,带来了好多高级功能。它的定价策略也很吸引人,每百万输入token的费用只要0.10美元,每百万输出token的费用是0.40美元,和竞争对手GPT - 4.1Nano价格差不多。而且,和早期的预览版比起来,这个模型在音频输入方面的定价降低了40%,能看出谷歌对用户需求的关注和对市场竞争的回应。

在各项基准测试中,Gemini2.5Flash-Lite的表现超过了之前的2.0版本,涵盖了编码、数学、推理和多模态理解等多个领域。它支持100万token的上下文窗口,有可控的思考预算,还提供了多种原生工具,像和Google搜索结合、代码执行以及URL上下文的功能。

开发者们用起来也很方便,通过简单的代码指令,指定模型为gemini-2.5-flash-lite就行。不过要注意,原有的预览版别名计划8月25号就移除了,开发者们得尽快适应新版本。

Gemini2.5Flash-Lite的发布,体现了谷歌在人工智能技术上不断创新和优化的决心,给开发者提供了更高效且经济实惠的选择,未来肯定会在很多应用场景中发挥大作用。

详情查看:谷歌Gemini 2.5 Flash-Lite稳定版发布:速度、成本双突破,开发者新利器来了!

谷歌Gemini 2.5 Flash-Lite稳定版发布

李开复零一万物放大招,企业级智能体“万仔”闪亮登场

零一万物在北京开了个盛大的产品发布会,推出了全新版本的万智企业大模型一站式平台(万智平台)2.0,还正式发布了代号为“万仔”的企业级智能体(AI Agent)。

“万仔”这个创新产品,定位是“超级员工”。它有深度思考和任务规划能力,能访问手机和网络端,连接各种企业服务。企业可以根据自身业务需求定制专属智能体,解决实际问题。

它通过自主研发的强化学习和全栈研发技术,提高了任务规划能力。结合企业的知识库和生产任务,以交付结果为目标,动态生成执行计划,从“工具流执行者”变成了“人机共同决策者”。而且,它还支持私有化部署和结果校验,能保证企业的数据安全和隐私。

零一万物的首席执行官李开复说,企业级智能体已经进入推理Agent阶段,技术水平跟OpenAI最近发布的ChatGPT Agent差不多。他还预测AI智能体发展会经历三个阶段,先是L1阶段的工作流智能体,依赖人类主导任务规划与决策;接着是L2阶段的推理智能体,能自主判断任务步骤,调度多种工具完成复杂目标;最后是L3阶段的多智能体协作,多个AI智能体有机协作,自主分配任务和调度资源,重构企业运作模式。

零一万物的这些创新,展示了在AI领域的领先技术,也给企业数字化转型提供了新方案,推动了行业变革。

详情查看:零一万物发布万智平台2.0和“万仔”智能体,企业AI现在更注重实际效果了

体验地址:零一万物网页版官网入口

零一万物

通义千问开源Qwen3-Coder,智能编程开启全新时代

7月23号,阿里云宣布其最新的AI编程大模型Qwen3 - Coder全面开源,一下子在智能编程领域掀起了热潮。Qwen3 - Coder在代码生成和Agent能力方面表现卓越,在Agentic Coding、Agentic Browser - Use及基础编码任务上都达到了开源模型的顶尖水平,标志着智能编程技术进入了新阶段。

Qwen3 - Coder模型系列有多个尺寸可选,这次率先开源的是最强大的版本——Qwen3 - Coder - 480B - A35B - Instruct。它采用先进的MoE架构,参数量高达480B,激活参数达35B,原生支持256K上下文,还能通过YaRN技术扩展至1M长度,处理大规模代码库和动态数据的能力超强。

预训练阶段,通义团队通过多维度扩展策略提升了Qwen3 - Coder的代码能力。训练数据总计7.5T,其中代码占比70%,保证了模型有卓越的编程能力。上下文扩展方面,原生支持的长上下文处理能力,专为仓库级代码和动态数据优化,提升了Agentic Coding的效率和准确性。还通过合成数据扩展技术,用Qwen2.5 - Coder清洗和重写低质数据,提高了数据质量。

后训练阶段,团队采用执行驱动的大规模强化学习策略,构造了大量高质量训练实例,提升了代码执行成功率,对其他任务也有积极影响。在真实世界的软件工程任务中,Qwen3 - Coder展现了出色的自主规划、工具调用和决策能力。

通义团队还开源了命令行工具Qwen Code,方便开发者使用。而且Qwen3 - Coder的API能和Claude Code、Cline等优秀编程工具协同使用。目前,它已在魔搭社区、HuggingFace等平台全面开源,全球开发者都能免费下载使用,还会很快接入阿里的AI编程产品通义灵码,阿里云百炼平台也上线了它的API。

详情查看:最新开源!通义千问发布Qwen3-Coder编程大模型

Qwen3-Coder

腾讯自主研发的混元ASR大模型接入ima平台,语音输入开启便捷新体验

7月22号,腾讯混元宣布其自主研发的ASR(语音识别)大模型正式应用于ima平台,在手机App端实现了语音输入功能,给用户带来了“出口成章”的便捷体验。现在用户不用手动敲键盘,直接用语音就能输入问题或者记录灵感,输入效率大大提高。

腾讯混元ASR大模型特别厉害,在复杂环境下也能准确识别语音,每分钟能识别300字,速度比手动输入快4倍,而且识别结果更精准自然。它采用了业界首个基于双编码器的流式ASR架构,和传统ASR技术比起来,语义理解能力提升了很多,在中英文混杂等场景中表现更出色。

ima平台引入语音输入功能后,覆盖了知识库问答、笔记创作等多个应用场景。用户在进行知识库查询或者首页问答时,问题长的话可以直接语音输入;写笔记的时候,ima就像个会听音的笔记小助手,能帮用户创作,还能根据旧笔记快捷续写,实现无缝衔接。iOS用户还能通过添加桌面小组件,更快速地提问。

腾讯混元团队表示,未来会继续优化ASR大模型,提升方言识别和多语言识别能力,扩充支持的语言类型,满足不同场景下的使用需求。这次语音输入功能的上线,展示了腾讯混元在语音识别领域的技术实力,也给用户带来了更高效、便捷的输入方式,开启了智能交互的新篇章。

体验地址:腾讯ima平台网页版官网入口

腾讯ima平台

人机交互迎巨变!Hedra Live Avatars发布,超低至0.05美元/分钟引爆视频AI代理革命

2025年7月22号,Hedra实验室推出了号称全球最先进的流媒体头像模型——Hedra Live Avatars,这可是视频AI代理领域的一大突破,以低成本、超低延迟和高度灵活性为亮点,给内容创作者、营销团队和企业用户带来了新可能。

Hedra Live Avatars优点超多。成本超低,每分钟只要0.05美元,比现有解决方案便宜15倍,不管是个人创作者还是大型企业都能用得起。延迟超低,依托LiveKit的全球基础设施,响应时间低于100毫秒,直播、虚拟会议和在线教育等场景都能流畅使用。灵活性也高,兼容主流大语言模型和文本转语音技术,像谷歌的Gemini和OpenAI的语音模型,用户能自由搭配,打造个性化交互体验。风格还多样,不管是逼真的写实风格、动态的动画效果,还是独特的艺术化风格,都能从单一静态图像生成多样化的数字头像。

它的应用场景也很广泛。内容创作与社交媒体方面,创作者能利用它生成虚拟主播或动画角色,用于短视频内容制作,低成本高效率,适合独立创作者和小型团队。教育与培训方面,能生成虚拟教师或讲解员,让在线课程和企业培训更生动直观。客户服务与营销方面,企业可以用它打造虚拟客服或品牌代言人,提升用户体验,降低视频制作成本。游戏与虚拟现实方面,风格无关特性让它在游戏开发和VR场景中表现出色,开发者能快速生成多样化的虚拟角色。

Hedra还为用户提供了免费试用机会,在Hedra官网就能体验核心功能。不过,部分用户反馈它在处理非正面视角图像时可能有局限,Hedra团队也承诺会持续优化模型。

体验地址:Hedra AI网页版官网入口



想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • Mureka:AI音乐商用创作平台
  • Kimi ai:人工智能助手
  • 零一万物:李开复成立的创新企业
  • ‌ima:腾讯智能工作台
  • Hedra:AI对口型视频生成工具
相关资讯
  • 每日AI资讯-2025年07月25日

  • 每日AI资讯-2025年07月24日

  • 每日AI资讯-2025年07月23日

  • 每日AI资讯-2025年07月22日

  • 每日AI资讯-2025年07月21日

热点资讯

每日AI资讯-2025年07月17日

8天前
每日AI资讯-2025年07月17日

火山引擎“奇美拉”数字人平台封测开启,字节跳动AI版图再添重磅拼图

4天前
火山引擎“奇美拉”数字人平台封测开启,字节跳动AI版图再添重磅拼图

YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

1天前
YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

3天前
Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

颠覆传统!首个“文本到电影”AI智能体SkyReels问世,一键生成完整影片不是梦

4天前
颠覆传统!首个“文本到电影”AI智能体SkyReels问世,一键生成完整影片不是梦
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有