每日AI资讯-2025年10月21日-AITOP100,AI资讯

Vidu Q2重磅上线：视频生成提速3倍，支持5分钟完整创作

2025年10月21日，在AI视频创作领域，Vidu Q2正式上线。此次升级专为专业和半专业创作者打造，满足他们对高质量、高想象力内容的需求。目前，Vidu Q2参考生视频功能已全球上线，用户通过网页端或应用商店下载Vidu AI App就能体验。

Vidu Q2在语义理解、镜头控制等方面有了大幅提升。不管是短剧、动漫，还是影视制作中的复杂场景，它都能生成精准、自然且视觉一致的视频，让创作可控性和完成度大大提高。而且，推理速度比Q1快了近三倍，价格却不变，让AI视频创作更普惠高效。

最让人惊喜的是，Vidu首次推出视频延长功能。以前，5秒视频只能玩梗或展示单一镜头，现在30秒可实现多镜头切换，5分钟版本甚至能讲述完整故事。这意味着创作者可以用AI工具创作出情节丰富的作品。

Vidu Q2的升级，代表着AI视频创作技术又上了一个新台阶，也标志着AI正从“辅助生成”迈向“全流程创作”。这将进一步推动智能视频制作的普及化和专业化，让更多创作者能借助AI的力量，创作出精彩的作品。如果你对AI视频创作感兴趣，不妨试试Vidu Q2，开启你的创作新旅程。

字节跳动Sa2VA模型：语言 + 分割双能力，视频编辑更精准

近期，字节跳动联合多所高校研究团队，推出了创新模型Sa2VA，为多模态AI技术发展注入了新活力。

Sa2VA结合了视觉语言模型LLaVA和分割模型SAM - 2的优势。LLaVA擅长视频宏观叙事和内容理解，但在细节指示上有所欠缺；SAM - 2是图像分割专家，却缺乏语言理解能力。Sa2VA通过“暗号”系统将两者有效结合，就像一个双核处理器，一核负责语言理解与对话，另一核负责视频分割与跟踪。

当用户输入指令，Sa2VA会生成特定指令token，传递给SAM - 2进行分割操作。这种设计让两个模块能发挥专长，还能反馈学习，提升整体性能。研究团队还设计了多任务联合训练课程，增强其在图像和视频理解方面的能力。

在多项公开测试中，Sa2VA表现出色，尤其在视频指代表达分割任务中表现亮眼。它能在复杂真实场景中精准分割，还能实时跟踪视频中的目标对象，动态处理能力很强。

字节跳动还开放了Sa2VA的多种版本和训练工具，鼓励开发者研究和应用。这为AI领域的研究人员和开发者提供了丰富资源，推动了多模态AI技术的发展。相信在未来，Sa2VA会在更多领域发挥重要作用。

模型地址：https://github.com/bytedance/Sa2VA

字节跳动Sa2VA模型

Google Veo3.1新功能：视频能精准增删元素，新手也能做后期

Google即将推出的Veo3.1，带来了革命性的“精确编辑”功能，让视频编辑变得轻松又逼真。

Veo3.1在Veo3基础上全面优化，重点强化了视频编辑的精确性和自然度。用户可以对现有视频进行细粒度修改，比如插入新元素或移除不需要的对象，AI算法会自动生成逼真的阴影、灯光调整和环境互动，让新增内容与原视频完美融合。它支持高达1080p分辨率、24帧每秒的动态视频处理，还提升了音频生成质量和提示词响应准确性。

“Insert”工具是Veo3.1的核心亮点，用户能轻松向视频中添加新元素，系统会自动处理光影投射、物体反射和运动一致性等问题，让新增部分与原场景浑然一体。比如，在户外视频中插入动态物体，Veo会实时模拟其与环境的物理互动。

“Remove”功能也很强大，能快速从视频中抹除特定物体或人物，同时智能重建背景，确保删除后无痕迹。这种“隐形修复”技术基于先进的视频修复算法，能处理复杂场景。

Veo3.1的精确编辑功能不仅限于Flow平台，还通过Gemini API等向开发者及企业用户开放，支持多种视频格式，兼容热门平台。新增的“Extend”功能可基于上一帧无缝延长视频序列，生成沉浸式镜头。

Veo3.1的到来，标志着AI视频技术从“生成”向“编辑与融合”的跃进，为广告、教育和娱乐行业注入了新活力。创作者们，准备好迎接视频编辑的新时代了吗？

模型地址：谷歌Veo网页版官网入口 (海外网站需要科学上网)

网易有道词典AI同传用户破2000万：71种语言实时翻译

2025年10月21日，网易有道词典公布了最新运营数据，其核心AI功能“AI同传”累计用户突破2000万，2025年9月使用人数同比增长近60%。这一成绩的背后，是AI同传满足用户需求的强大能力。

随着出国留学、跨境电商及国际学术交流需求的增加，AI同传逐渐成为用户的得力工具。有道词典通过全面的AI化升级，从传统查词工具转型为AI原生词典应用，利用自研翻译大模型，提供专业翻译能力，整合了20多项AI功能，为用户带来高效的语言学习与沟通体验。

AI同传的精准翻译功能深受大学生和外贸工作者欢迎。它能在复杂环境中优化识别精准度，有效过滤噪音，在10米范围内保证清晰语音识别。支持71种语言和125种口音识别，让跨文化沟通更顺畅。而且，其专业翻译准确率高达98%，能避免术语翻译错误造成的沟通障碍。

有道词典的AI化升级，不仅提升了用户的语言学习和沟通效率，也表明词典类工具正在向更智能的AI应用转型。未来，随着技术的不断发展，AI同传有望在更多领域发挥重要作用，为用户提供更加便捷、高效的语言服务。如果你有语言学习和沟通的需求，不妨试试有道词典的AI同传功能。

网易有道

Fish Audio S1升级：10秒克隆声音，价格仅ElevenLabs1/6

2025年10月21日，Fish Audio S1语音克隆模型迎来重大升级，以其卓越的情感表现力和拟真度，重新定义了语音生成技术行业标准。

此次升级，Fish Audio S1在情感表现力与声音拟真度上实现了显著提升。通过深度学习算法优化，它能更好地分析声音样本中的情感特征、语调变化和说话节奏，生成富有情绪、节奏感与语气变化的真人级声音。不管是激动的演讲、温柔的对话，还是个性的表达，S1都能精准捕捉并还原。

操作上，Fish Audio S1极为简便。用户只需提供10秒钟的声音样本，模型就能完成高质量的语音克隆。升级后的S1不仅能精准克隆任意人声，还能保留口音、语调与节奏，还原说话者的独特习惯和个性特征。无论是哪种地方口音，S1都能轻松再现，为多语言场景提供了广阔应用空间。

而且，S1生成的语音自然度几乎与真人无异，适用于广告配音、虚拟主播等多个领域。在价格方面，S1也具有很大优势，定价仅为业内领先的ElevenLabs的六分之一，降低了高质量语音克隆的门槛，吸引了个人用户、中小企业和独立开发者。

Fish Audio S1的升级，推动了语音克隆技术的发展，也为多个行业带来了新可能性。未来，它有望成为语音克隆领域的标杆产品，为用户创造更多价值。

详情查看：Fish Audio S1升级10秒克隆真人级语音，成本仅为竞品六分之一

Adobe正式推出Adobe AI Foundry：为企业定制专属Firefly模型

2025年10月20日，Adobe推出的Adobe AI Foundry服务，为企业客户打造定制化的AI模型Firefly，满足了企业对更复杂定制版本的需求。

通过Adobe AI Foundry，Adobe将与企业合作，重新架构和再训练Firefly模型。这些Foundry版本的模型与普通定制Firefly模型不同，能理解多个概念，还是多模态的，具备更广泛的应用场景。企业的知识产权将保持独立，Adobe不会将其合并回基础模型，企业拥有生成内容的所有权。

Adobe将通过其API解决方案Firefly Services提供Foundry版本的Firefly。这个过程被称为深度调优，Adobe会与企业客户直接合作，识别所需数据，安全传输和处理数据，然后开始预训练模型。企业提供的额外数据通常会扩展Firefly的参数。

Home Depot和Walt Disney Imagineering是Adobe AI Foundry的首批客户之一，他们表示，Adobe的AI Foundry将为客户体验的提升和创意工作流程的简化带来创新解决方案。企业通常会对大型语言模型进行微调，以符合自身需求。一些公司可能会拥有三种版本的Firefly，满足不同项目和团队的需求。

Adobe AI Foundry的推出，为企业提供了更符合自身需求的AI模型定制服务，有助于企业在创意工作中发挥更大的优势。未来，随着技术的不断发展，Adobe AI Foundry有望为企业带来更多的创新和价值。

详情查看：Adobe AI Foundry正式上线

Adobe AI Foundry服务

上海AI实验室IWR-Bench：GPT-5视频转网页仅36分，技术仍需突破

上海人工智能实验室与浙江大学等机构联合推出的IWR - Bench，是首个评估大语言模型将视频转化为交互式网页代码能力的基准测试，填补了AI前端开发领域动态交互评测的空白。

与传统的图像转代码任务不同，IWR - Bench要求模型观看记录用户完整操作流程的视频，结合网页静态资源，重建网页的动态交互行为。任务复杂度涵盖从简单网页浏览到复杂游戏规则重建等多种应用场景。

在对28个主流模型的评测中，表现最好的GPT - 5综合得分仅为36.35分，其中交互功能正确性得分为24.39%，视觉保真度得分为64.25%。这反映出模型在视觉还原方面相对较强，但在实现事件驱动逻辑和动态交互功能方面存在明显短板。

IWR - Bench不仅关注模型的视觉还原能力，还通过自动化代理评估其交互功能的正确性。每个任务提供完整静态资源，且文件名匿名化处理，迫使模型依靠视觉匹配关联资源。

从技术挑战来看，视频转网页任务有时序理解、逻辑抽象、资源匹配和代码生成等多个难点。GPT - 5的得分说明，即使是最先进的多模态模型，在该任务上仍有很大提升空间。

IWR - Bench的推出对AI研究和应用都有重要意义。它为多模态模型的动态理解和代码生成能力提供了新的评测维度，也有助于推动多模态大模型在实际开发场景中的应用价值。未来，随着该基准的推广，AI多模态能力有望得到进一步提升。

体验地址：全球首个视频转网页评测基准IWR-Bench发布，GPT-5交互正确率不足25%

上海AI实验室IWR-Bench

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群