苹果公司正式上线了全新的视频生成模型STARFlow-V。在如今视频AI技术竞争激烈的大环境下,这款模型可谓是独树一帜,它和当下主流的Sora、Veo和Runway等模型有着天壤之别。难道STARFlow-V真能凭借独特技术,在视频生成领域掀起新的浪潮吗?和那些采用扩散模型的竞争对手相比,它的优势又体现在哪里呢?
项目地址: https://github.com/apple/ml-starflow
模型地址: https://huggingface.co/papers/2511.20462

独特技术:告别扩散模型,拥抱“归一化流”
主流的扩散模型生成视频,是通过多步迭代去除噪声的方式。而苹果的STARFlow-V却另辟蹊径,放弃了这种业界主流做法,采用了“归一化流”技术。这一技术直接学习随机噪声和复杂视频数据之间的数学变换,和扩散模型有着根本性的差异。这种差异带来了诸多好处。
训练效率上,它只需一次完成训练过程,不用多次小迭代,大大提高了效率。生成速度方面,训练完成后就能直接生成视频,无需迭代计算,速度显著提升。
而且,它还减少了逐步生成过程中常见的错误。苹果宣称,STARFlow-V是首个在视觉质量和速度上能和扩散模型相媲美的同类技术。通过并行处理和重用先前帧数据,它生成五秒视频的速度比初始版本提升了约15倍。
在AI视频生成领域,不同的技术有着不同的特点。下面简单对比一下STARFlow-V和扩散模型:
| 技术类型 | 训练方式 | 生成速度 | 错误情况 |
|---|---|---|---|
| STARFlow-V(归一化流) | 一次完成训练 | 直接生成,速度快 | 错误减少 |
| 扩散模型 | 多步迭代去除噪声训练 | 需迭代计算,速度慢 | 逐步生成易出错 |
双架构设计:攻克长视频生成难题
生成长序列视频一直是当前视频AI技术面临的一大挑战,因为逐帧生成很容易导致误差累积。STARFlow-V为了解决这个问题,采用了双架构方法。它有一个组件专门管理跨帧的时间序列,确保运动一致性;另一个组件则负责优化单个帧内的细节,保证画面质量。
这种巧妙的设计,让STARFlow-V在长达30秒的演示片段中都能保持稳定性。而它的竞争对手,像NOVA和Self - Forcing,在生成几秒视频后就开始出现模糊或色彩失真的情况。这就好比一场马拉松比赛,STARFlow-V能稳定跑完全程,而其他选手却早早体力不支。
在视频生成领域,有个有趣的现象,不同模型生成视频的稳定性差异很大。比如一些模型生成短视频还行,但一到长视频就“掉链子”,而STARFlow-V凭借双架构设计,在长视频稳定性上表现突出。
多功能性与性能表现:成绩亮眼也有局限
STARFlow-V的功能十分强大,无需修改就能处理多种任务。它可以进行文本转视频,把文字描述变成生动的视频画面;还能实现图像转视频,将输入的图像作为起始帧,生成连贯的视频;在视频编辑方面,它也毫不逊色,允许用户添加或删除对象。
在VBench基准测试中,STARFlow - V获得了79.7分。虽然这个成绩落后于Veo3(85.06)和HunyuanVideo(83.24)等顶尖扩散模型,但它明显优于其他自回归模型,尤其在空间关系和人体表征方面表现出色。
不过,STARFlow-V也存在一些局限。它的分辨率相对较低,只有640×480,帧率是16帧/秒,而且目前还无法在标准显卡上实时使用。更关键的是,它在物理模拟方面存在明显缺陷,比如会出现“章鱼穿过玻璃”和“石头凭空出现”等不符合物理规律的现象。
未来发展:持续改进,追求卓越
苹果也承认了STARFlow-V存在的这些限制,并且已经有了明确的改进计划。未来,他们将专注于加快计算速度、缩小模型规模,以及使用更注重物理精确性的训练数据。目前,相关代码已经在GitHub上发布,模型权重也将随后在Hugging Face上公布。相信在苹果的不断努力下,STARFlow-V会不断完善,给我们带来更多惊喜。
结语
苹果的STARFlow-V视频模型凭借独特的“归一化流”技术和双架构设计,在视频生成领域展现出了强大的潜力。虽然目前还存在一些不足,但它为视频AI技术的发展提供了新的思路和方向。我们期待着它在未来能够取得更大的突破,为我们带来更优质、更稳定的视频生成体验。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









