谷歌放大招：Veo 3.1正式上线，视频生成再进化，但和Sora2仍有差距？-AITOP100,AI资讯

2025年10月15日，科技圈又有大动作！谷歌正式上线了Veo 3.1和Veo 3.1 Fast两款视频生成模型，以付费预览的形式登陆Gemini API。这可不是普通的升级，它究竟能不能在视频生成领域掀起新的浪潮？和行业“老大哥”Sora2比起来，又有着怎样的表现呢？

体验地址：Veo 3.1网页版官网入口（海外网站需要科学上网）

Veo系列可是谷歌在生成式视频模型领域的“王牌”：

2024年5月，Veo 1首次公开亮相，支持1080p分辨率视频生成，时长超过1分钟，还强调创意控制和真实感，直接向OpenAI的Sora系列发起挑战。
7个月后的2024年12月，Veo 2带着提升的艺术级视频和图像生成能力来了，还能和Imagen 3结合，在物理模拟和风格一致性上有了不小进步。
到了2025年5月，Veo 3更是定位为电影级文本到视频与图像到视频的创作引擎，支持多人物互动和复杂场景，还推出了Flow工具，半年时间全球用户就在Flow中生成了2.75亿个视频。
如今，Veo 3.1的上线，无疑是对前代模型的进一步升级。

下图是Veo的各版本发布时间以及核心亮点：

veo3.1

Veo 3.1核心亮点：

Veo 3虽然用户众多，但也存在不少痛点。音频生成局限于简单背景音，缺乏真实对话的自然流畅；叙事控制难以精准捕捉导演意图，角色在多场景切换时还会出现不一致；从图像起步的视频创作，也经常因提示词偏差产生视觉artifact，浪费计算资源。

Veo 3.1作为Veo 3的小幅改进版本，自然要解决这些问题。它在模型训练数据上进行了大规模优化，融入了更多高质量的电影级视频样本，训练数据集规模较前代至少升级至50%。这一改变，直接提升了模型对复杂提示的理解深度。

Veo 3.1最大的特点就是能无缝构建连贯的叙事链条。以前生成科幻短片的音频，听起来就像机器人朗读，现在却能模拟出紧张的背景配乐与人物低语交织，仿佛是专业后期制作出来的。

具体来看：

首次在“Ingredients to Video”“Frames to Video”和“Extend”等功能中集成音频，支持自然对话、音效和环境噪音，音频与视频同步，无需后期处理，音频质量也更逼真，不过不支持自定义语音选择。

模型对故事结构、电影风格和角色互动有更深理解，支持多参考图像保持角色/物体一致性，提示遵守更强，减少无效生成。

在真实主义方面，能捕捉真实纹理、物理模拟和复杂场景，图像到视频转换的视听质量大幅提升。

此外，还集成了多种编辑工具，

Veo 3.1还有个Fast版本，视频生成速度很快，适合快速原型，但输出质量略低于标准版。

下面我们来对比一下Veo 3.1和Sora2，看看它们在不同参数类别上的表现：

参数类别	OpenAI Sora 2	Google Veo 3.1	优胜方
输出格式	MP4，24 fps；同步音频（对话/SFX）	MP4，24 fps；同步音频（对话/SFX）	平手
分辨率	1080p（默认，1920x1080）；4K 测试中（Pro 版）	720p（默认）；1080p（限 8s）	Sora 2（更高清）
宽高比	16:9/9:16；支持自定义	16:9（默认）；9:16。参考图像限 16:9	平手
持续时间	5 - 10s（默认）；Pro 扩展至 60s	4 - 8s（默认）；扩展至 148s（最多 20 次）	Veo 3.1（更长）
输入模态	文本（≤2048 tokens）；图像/Cameo（多变体）；视频续接。负提示支持	文本（≤1024 tokens）；最多 3 张图像；视频扩展。负提示	Sora 2（更多变体）
生成限制	每次 1 - 5 个；种子可选；高峰延迟 2 - 5 分钟。安全过滤阻塞 NSFW	每次 1 个；种子可选；延迟 11s - 6min。欧盟限人物生成	Veo 3.1（更快 Fast 版）