2025年10月15日,科技圈又有大动作!谷歌正式上线了Veo 3.1和Veo 3.1 Fast两款视频生成模型,以付费预览的形式登陆Gemini API。这可不是普通的升级,它究竟能不能在视频生成领域掀起新的浪潮?和行业“老大哥”Sora2比起来,又有着怎样的表现呢?
体验地址:Veo 3.1网页版官网入口 (海外网站需要科学上网)
Veo系列可是谷歌在生成式视频模型领域的“王牌”:
- 2024年5月,Veo 1首次公开亮相,支持1080p分辨率视频生成,时长超过1分钟,还强调创意控制和真实感,直接向OpenAI的Sora系列发起挑战。
- 7个月后的2024年12月,Veo 2带着提升的艺术级视频和图像生成能力来了,还能和Imagen 3结合,在物理模拟和风格一致性上有了不小进步。
- 到了2025年5月,Veo 3更是定位为电影级文本到视频与图像到视频的创作引擎,支持多人物互动和复杂场景,还推出了Flow工具,半年时间全球用户就在Flow中生成了2.75亿个视频。
- 如今,Veo 3.1的上线,无疑是对前代模型的进一步升级。
下图是Veo的各版本发布时间以及核心亮点:

Veo 3.1核心亮点:
Veo 3虽然用户众多,但也存在不少痛点。音频生成局限于简单背景音,缺乏真实对话的自然流畅;叙事控制难以精准捕捉导演意图,角色在多场景切换时还会出现不一致;从图像起步的视频创作,也经常因提示词偏差产生视觉artifact,浪费计算资源。
Veo 3.1作为Veo 3的小幅改进版本,自然要解决这些问题。它在模型训练数据上进行了大规模优化,融入了更多高质量的电影级视频样本,训练数据集规模较前代至少升级至50%。这一改变,直接提升了模型对复杂提示的理解深度。
Veo 3.1最大的特点就是能无缝构建连贯的叙事链条。以前生成科幻短片的音频,听起来就像机器人朗读,现在却能模拟出紧张的背景配乐与人物低语交织,仿佛是专业后期制作出来的。
具体来看:
1.Veo 3.1丰富的原生音频生成
首次在“Ingredients to Video”“Frames to Video”和“Extend”等功能中集成音频,支持自然对话、音效和环境噪音,音频与视频同步,无需后期处理,音频质量也更逼真,不过不支持自定义语音选择。
2.叙事控制增强
模型对故事结构、电影风格和角色互动有更深理解,支持多参考图像保持角色/物体一致性,提示遵守更强,减少无效生成。
3.真实主义方面提升
在真实主义方面,能捕捉真实纹理、物理模拟和复杂场景,图像到视频转换的视听质量大幅提升。
4.编辑工具集成
此外,还集成了多种编辑工具,
- 如Insert能在任意场景添加元素,自动调整影子和光照;
- Remove能无缝移除物体/人物,重构背景;
- Ingredients to Video能结合多图像生成一致场景;
- First and Last Frame能从起始/结束图像生成平滑过渡,支持180度弧形镜头;
- Scene Extension能基于前一剪辑的最后一秒扩展视频,实现1分钟 + 长片。
Veo 3.1还有个Fast版本,视频生成速度很快,适合快速原型,但输出质量略低于标准版。
Veo 3.1与Sora2对比
下面我们来对比一下Veo 3.1和Sora2,看看它们在不同参数类别上的表现:
| 参数类别 | OpenAI Sora 2 | Google Veo 3.1 | 优胜方 |
|---|---|---|---|
| 输出格式 | MP4,24 fps;同步音频(对话/SFX) | MP4,24 fps;同步音频(对话/SFX) | 平手 |
| 分辨率 | 1080p(默认,1920x1080);4K 测试中(Pro 版) | 720p(默认);1080p(限 8s) | Sora 2(更高清) |
| 宽高比 | 16:9/9:16;支持自定义 | 16:9(默认);9:16。参考图像限 16:9 | 平手 |
| 持续时间 | 5 - 10s(默认);Pro 扩展至 60s | 4 - 8s(默认);扩展至 148s(最多 20 次) | Veo 3.1(更长) |
| 输入模态 | 文本(≤2048 tokens);图像/Cameo(多变体);视频续接。负提示支持 | 文本(≤1024 tokens);最多 3 张图像;视频扩展。负提示 | Sora 2(更多变体) |
| 生成限制 | 每次 1 - 5 个;种子可选;高峰延迟 2 - 5 分钟。安全过滤阻塞 NSFW | 每次 1 个;种子可选;延迟 11s - 6min。欧盟限人物生成 | Veo 3.1(更快 Fast 版) |
从对比中可以看出,两者各有优劣。Sora 2在分辨率、输入模态等方面表现出色,而Veo 3.1在持续时间和生成速度(Fast版)上有一定优势。
Veo 3.1实测:仍有提升空间
虽然Veo 3.1在视频生成的质量、连贯性、物理世界理解、配音等方面有明显提升,但根据实测,OpenAI的Sora 2在多个方面依然更胜一筹。
在微观写实、光影与物理细节上,Sora 2更常被认可,Veo 3.1则经常出现与物理世界不符的情况。
比如在配音方面,许多测试显示Sora 2的音频更加自然。有用户做了一个大猩猩和猴子合唱的视频,Veo 3.1输出的视频动物表情丰富,合唱节奏感强,背景丛林细节出色,但动作略显卡顿。而Sora2视频包含更狂野的互动,猴子跳跃物理真实,但声音同步稍弱。


还有用户测试了一群人在沙滩上打排球,Veo 3.1输出的视频中球员动作一致,沙滩纹理细腻,但跳跃高度不准,球轨迹略假。Sora 2输出的视频则物理碰撞真实,汗水和沙尘效果出色,整体更活力四射。

Veo 3.1使用与价格情况
目前,大家已经可以在Gemini API / Vertex AI / Gemini 应用 / Flow上面使用Veo 3.1了,不过都是付费使用。在接口价格方面,Veo 3.1标准版是0.4美元/秒,而Sora2是0.1美元/秒,Sora2 - pro是0.3美元/秒。
谷歌的Veo系列视频生成模型一直在不断进化,Veo 3.1的上线虽然带来了不少亮点,但和Sora2相比仍有差距。未来,谷歌能否在视频生成领域实现更大的突破,让我们拭目以待。
值得一提的是,如今AI技术在视频生成领域的应用越来越广泛,各大科技公司都在不断加大研发投入,竞争愈发激烈。这也促使着视频生成技术不断朝着更加真实、智能、高效的方向发展。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









