每日AI资讯-2025年07月04日-AITOP100,AI资讯

字节跳动放大招！Trae-Agent开源，智能编程起飞

今天，字节跳动旗下超厉害的AI原生集成开发环境Trae，把它的核心组件Trae-Agent给开源啦，全球开发者可有新的智能编程体验咯！官方账号@Trae_ai推文里说，开发者用git clone和cd trae-agent这俩命令，就能快速把这个智能开发助手拿到手，开始体验啦。

Trae-Agent这智能开发工具，那可是相当牛。它能用自然语言，让编程任务自动化，大大提高开发效率。它有好多厉害的地方：

能兼容OpenAI、Anthropic等各种大语言模型，安装和配置也不复杂，不管你有啥开发需求，它都能灵活适配；
里面集成了文件编辑、脚本执行这些常用工具，还支持多轮交互，再复杂的编程场景它都能应付；
操作过程中的日志它都会自动保存，以后调试、回溯都方便，开发过程变得更透明；
它还特别与时俱进，跟Python3.12完美适配，和现在主流的开发环境无缝对接。

Trae-Agent作为Trae生态的关键部分，它的开源可是字节跳动在推动AI驱动开发工具普及路上的又一里程碑。开发者们能在开源社区贡献自己的力量，一起打造更智能的编程未来。

现在，Trae已经有超百万的月活跃用户，交付的代码累计都超过60亿行啦，在全球开发者社区那影响力杠杠的！

体验地址：Trae国内版官网入口

体验地址：Trae国际版官网入口

Trae-Agent

谷歌Veo 3视频生成模型全球上线，创意视频轻松造

谷歌宣布，最新的视频生成模型Veo 3正式在全球范围推出啦！这消息一出来，好多用户都盼着呢。现在，超过159个国家的Gemini用户都能用上Veo 3，开启全新的视频创作之旅。

Veo 3这个视频生成模型，最大的特点就是用户只要简单输入文本提示，就能生成最长八秒的视频。谷歌说，这技术就是为那些有创意的用户准备的，尤其是现在社交媒体上对短视频需求越来越大，Veo 3能让视频创作变得超简单。

不过，得注意一下，Veo 3目前只对谷歌AI Pro计划的付费用户开放，而且每天最多只能生成三段视频。谷歌这么做，也是为了合理分配资源，同时让用户更珍惜每次创作机会，认真对待视频创作。

Veo 3的发布，可是谷歌在AI视频生成领域的重要布局。发布会上，谷歌的Josh Woodward透露，团队还在努力研发把图像转化为视频的功能，以后用户上传图片，就能生成相关的动态视频，视频创作的可能性又大大增加了。

现在视频内容在社交平台和商业宣传里越来越重要，Veo 3的推出，既展示了谷歌在AI领域的创新实力，又给用户提供了超便捷高效的创作工具。相信以后会有越来越多的创作者和企业加入到这个全新的视频生成潮流里，让内容创作变得更多样、更个性。在这个数字化飞速发展的时代，谷歌Veo 3把技术和创意结合起来，说不定能给全球用户带来超多灵感和便利呢。

体验地址：谷歌Veo网页版入口

谷歌Veo 3

腾讯元宝大升级，一句话搜索，图片视频全有

智能助手元宝今天宣布，它的核心搜索功能迎来重磅升级，“一句话能搜的更多了”这个新特性超实用！现在，用户只要简单提个问题，元宝就能像个聪明的小助手，智能匹配相关的图片和视频号内容，让获取信息变得又丰富又直观。

以前，元宝就能轻松搞定天气查询、股价查询、地点查找这些日常需求。这次升级，更是把它的智能搜索能力提升到新高度。不管你是想学个新技能，还是解决生活里的小难题，元宝都能把文字、图片和视频号整合起来，给你“手把手”教学。

要是你想学新技能，比如剪辑、烘焙或者健身动作，又没时间报班，没人教，咋办呢？现在简单啦，向元宝提问，它马上把文字教程和相关视频号都呈现出来，从入门到进阶，边看边学，轻松掌握新技能，学习再也没压力。

生活里遇到小困扰，像手机不会截图，电器坏了不知道咋修，找腾讯元宝就对了。它现在就像你的专属“生活小百科”，你简单问一句，它就配合视频号，一步一步教你解决问题。就算你是个“手残党”，跟着视频操作，小问题也能自己轻松搞定，省了不少麻烦。

元宝新增的图片和视频号匹配功能，只要开启“联网搜索”模式就能用。你一句话提问，元宝回答的时候自动匹配相关图片和视频号。而且这个功能超贴心，不管你用的是元宝的哪个模型，开没开深度思考模式，都能享受一句话搜索带来的丰富回答和直观视觉体验。

这次功能升级，能看出元宝团队特别重视提升用户体验。通过整合图片和视频号资源，元宝把智能搜索的便捷和视觉化的直观完美结合，用户获取信息的时候，学习、解决问题都变得更沉浸、更高效。

体验地址：腾讯元宝网页版官网入口

腾讯元宝

开源大事件！Kyutai TTS发布，超低延迟语音合成来袭

最近，法国的AI实验室Kyutai宣布，全新的文本转语音模型Kyutai TTS正式开源，这可给全球的开发者和研究者带来了一个高性能、低延迟的语音合成好方案。这个突破性的发布，不仅推动了开源AI技术发展，还为多语言语音交互应用打开了新可能，下面咱就来仔细看看它有啥厉害之处。

Kyutai TTS性能超卓越，一亮相就成了业界焦点。它支持文本流式传输，能在极短时间内生成特别自然流畅的语音。靠着强大的L40S GPU支持，它能同时处理32个请求，延迟最低能到350毫秒，这对实时语音交互来说，可是个超坚实的技术保障。不管是虚拟助手、实时字幕生成，还是在线教育平台，有了这超低延迟特性，用户体验能大大提升。

它不光速度快，语音生成的精准度也特别高。在英语和法语上，词错误率（WER）分别低至2.82和3.29，语音准确性超高。而且说话者相似度在英语和法语上分别能达到77.1%和78.7%，生成的语音既自然流畅，还能高度还原目标说话者的声音特点。更惊喜的是，它能输出单词确切时间戳，像做字幕生成、配音这些需要精准同步的场景，它能提供超强大的支持。

目前，Kyutai TTS支持英语和法语这两种语言，长文章的语音生成也不在话下。这让它在教育、媒体制作、语音导航等好多领域都有广泛应用潜力。比如在教育领域，能给视障人士提供高质量文本朗读服务；在媒体行业，它的低延迟和高保真语音能快速生成播客或者有声书内容。未来，Kyutai实验室还打算通过社区贡献，进一步增加语言支持，让这个模型在全球的应用范围更广。

作为完全开源的模型，Kyutai TTS以CC - BY - 4.0许可证发布，开发者可以自由使用、修改和分发。这开放策略降低了技术使用门槛，给全球AI社区提供了宝贵资源。Kyutai实验室还呼吁社区用户捐赠声音数据，帮模型增加更多语音风格和语言支持，大家一起推动语音合成技术进步。Kyutai TTS的发布，标志着开源AI语音技术又上了一个新台阶，随着更多人加入它的生态建设，说不定能在全球掀起AI语音应用的新潮流呢。
开源地址：https://kyutai.org/next/tts

体验地址：Unmute法国Kyutai语音AI系统

Kyutai TTS

DeepMind推Crome，让大语言模型更懂人类反馈

在人工智能这一块，奖励模型对让大型语言模型（LLMs）跟人类反馈保持一致特别重要。可现在的模型有个“奖励黑客”问题，它们老是关注回复的长度、格式这些表面特征，却没办法准确识别事实准确性、相关性这些真正重要的质量指标。为啥会这样呢？主要是标准训练目标分不清训练数据里那些虚假关联和真正起作用的因果驱动因素，这就导致奖励模型（RMs）不太靠谱，生成的策略也不对头。所以，现在急需一种新方法，利用因果理解来训练RMs，让模型对因果质量属性敏感，还能不被各种虚假线索干扰。

现有的奖励模型方法，像Bradley-Terry或者成对排名方法，想解决标准RLHF系统里的奖励黑客问题，有的从架构上修改，有的调整策略，还有的从数据中心角度用集合或一致性检查方法。最近有些因果启发式方法，用MMD正则化针对预先指定的虚假因素，或者通过修正重写估计因果效应。但这些方法都只能针对已知的虚假因素，对那些未知关联就没办法了。而且现在增强策略还比较粗糙，以评估为中心的方法也没给奖励模型提供好的训练机制，让它应对多样的虚假变异。

为了解决这些难题，谷歌DeepMind、麦吉尔大学和MILA - 魁北克人工智能研究所的研究人员搞出了Crome（因果鲁棒奖励建模）。Crome框架是建立在对答案生成的明确因果模型之上，通过往偏好数据集里添加针对性的、由大型语言模型生成的反事实示例，来训练RMs，这样就能区分真实的质量驱动因素和表面线索了。另外，Crome还创建了因果增强和中性增强这两种合成训练对，让模型更鲁棒，提高奖励基准的准确性。

Crome的操作主要分两个阶段：先基于因果模型生成对属性敏感的反事实数据，然后通过组合数据上的专门损失来训练奖励模型。研究人员用Gemma-2-9B-IT、Qwen2.5-7B等多种基础LLM评估性能，效果显著提升。Crome在多个基准测试里表现都很好，特别是在安全性和推理能力方面有明显进步，在WildGuardTest上也不错，降低了对有害提示的攻击成功率，对良性提示的拒绝率还能保持差不多。未来，Crome会重点研究因果数据增强，推动合成数据生成，给基础模型训练带来新可能。

DeepMind

MiniMax放出全球首个开源大规模AI模型，太牛了

最近，上海的AI独角兽公司MiniMax干了件大事，推出了全球首个开源大规模混合架构推理模型——MiniMax - M1。这模型一出来，马上就在权威评测榜单上崭露头角，成了全球开源模型里的第二名，就比刚发布的DeepSeek - R1 - 0528差一点。MiniMax的创始人兼CEO闫俊杰在社交媒体上感慨，感觉第一次看到了翻越技术大山的希望。

MiniMax - M1可不只是露个脸这么简单，技术细节方面超厉害。它在长文本处理和工具调用这些方面优势明显，能支持高达100万token的上下文输入，一整部《三体》英文原著都能一次性处理完。这能力是DeepSeek同类模型的八倍，甚至能和谷歌最新的闭源模型Gemini2.5Pro比一比。

更让人惊讶的是，MiniMax在强化学习阶段研发才花了53.5万美元，要知道业内普遍研发成本都得千万级，这研发效率和产品化能力太强了。M1发布后的短短四个工作日里，MiniMax就一口气推出了视频生成模型Hailuo02、通用智能体MiniMax Agent、视频创作智能体Hailuo Video Agent，还有音色设计工具Voice Design这些创新产品，更新速度快得像“日更”一样。

MiniMax扎根上海徐汇，早在2022年底ChatGPT引发全球热潮之前，就开始布局通用人工智能（AGI）领域了，而且当时就果断放弃了流行的大模型稠密架构和传统注意力机制。在全球大模型研发企业普遍收缩的时候，MiniMax坚持基础模型研发，最终实现了技术突破。MiniMax-M1的发布，不仅是技术上往前迈了一大步，说不定还能重新定义开源AI模型的发展方向，给行业未来发展注入新动力。

体验地址：MiniMax网页版入口

MiniMax智能体地址：MiniMax Agent官网入口

MiniMax

昆仑万维又开源，Skywork-Reward-V2来袭

2025年7月4日，昆仑万维又有大动作，开源了第二代奖励模型Skywork-Reward-V2系列。这个系列一共有8个奖励模型，它们基于不同的基座模型，参数规模从6亿到80亿都有。一推出就在七大主流奖励模型评测榜单上全面拿第一，成了开源奖励模型领域的大热门。

奖励模型在从人类反馈中强化学习（RLHF）过程里特别关键。为了打造新一代奖励模型，昆仑万维构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在处理数据的时候，团队采用人机协同的两阶段流程，把人工标注的高质量和模型的规模化处理能力结合起来。

第一阶段，先弄出未经验证的初始偏好池，借助大语言模型生成辅助属性，人工标注者按照严格协议，再用外部工具和大语言模型对部分数据仔细审核，做出小规模高质量“金标准”数据集。然后以金标准数据偏好标签为引导，结合大语言模型大规模生成高质量“银标准”数据，多轮迭代优化。

第二阶段就转向自动化大规模数据扩展，用训练好的奖励模型做一致性过滤，减轻人工标注负担，还能平衡偏好数据的规模和质量。

基于这些优质混合偏好数据开发的Skywork-Reward-V2系列，适用性特别广，能力也超强。它能实现对人类偏好的通用对齐、保证客观正确性、有安全性、抵抗风格偏差，还能做best-of-N扩展。在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM - Bench、JudgeBench等七个主流奖励模型评估基准上，都达到了当前最好（SOTA）水平。就算是最小的模型Skywork-Reward-V2-Qwen3-0.6B，整体性能也快赶上上一代最强模型的平均水平了，Skywork-Reward-V2-Qwen3-1.7B更是超过了现在开源奖励模型的SOTA。最大规模的Skywork-Reward-V2-Llama-3.1 - 8B在所有主流基准测试里全面领先，是目前整体表现最好的开源奖励模型。

这个系列模型还能广泛覆盖多维人类偏好。在通用偏好评估基准上，比好多参数更大的模型和最新生成型奖励模型都强；在客观正确性评估方面，知识密集型任务表现突出；在Best-of-N任务、偏见抵抗能力测试、复杂指令理解及真实性判断等多项高级能力评估里都领先，泛化能力和实用性都很棒。而且，数据筛选流程扩展性很强，大大提升了奖励模型性能。经过精细筛选和过滤的偏好数据，在多轮迭代训练里能持续有效提升模型整体性能，特别是在第二阶段全自动数据扩展里表现明显。早期版本实验显示，只用1.8%的高质量数据训练8B规模模型，性能就超过了现在70B级SOTA奖励模型，这也证明了Skywork-SynPref数据集在规模和质量上的优势。

GitHub地址：https://github.com/SkyworkAI/Skywork-Reward-V2

昆仑万维Skywork-Reward-V2