苹果STARFlow-V视频模型来袭，“归一化流”技术惊艳亮相-AITOP100,AI资讯

苹果公司正式上线了全新的视频生成模型STARFlow-V。在如今视频AI技术竞争激烈的大环境下，这款模型可谓是独树一帜，它和当下主流的 Sora、Veo和 Runway等模型有着天壤之别。难道STARFlow-V真能凭借独特技术，在视频生成领域掀起新的浪潮吗？和那些采用扩散模型的竞争对手相比，它的优势又体现在哪里呢？

项目地址： https://github.com/apple/ml-starflow

模型地址： https://huggingface.co/papers/2511.20462

苹果STARFlow-V视频模型

独特技术：告别扩散模型，拥抱“归一化流”

主流的扩散模型生成视频，是通过多步迭代去除噪声的方式。而苹果的STARFlow-V却另辟蹊径，放弃了这种业界主流做法，采用了“归一化流”技术。这一技术直接学习随机噪声和复杂视频数据之间的数学变换，和扩散模型有着根本性的差异。这种差异带来了诸多好处。

训练效率上，它只需一次完成训练过程，不用多次小迭代，大大提高了效率。生成速度方面，训练完成后就能直接生成视频，无需迭代计算，速度显著提升。

而且，它还减少了逐步生成过程中常见的错误。苹果宣称，STARFlow-V是首个在视觉质量和速度上能和扩散模型相媲美的同类技术。通过并行处理和重用先前帧数据，它生成五秒视频的速度比初始版本提升了约15倍。

在AI视频生成领域，不同的技术有着不同的特点。下面简单对比一下STARFlow-V和扩散模型：

技术类型	训练方式	生成速度	错误情况
STARFlow-V（归一化流）	一次完成训练	直接生成，速度快	错误减少
扩散模型	多步迭代去除噪声训练	需迭代计算，速度慢	逐步生成易出错

双架构设计：攻克长视频生成难题

生成长序列视频一直是当前视频AI技术面临的一大挑战，因为逐帧生成很容易导致误差累积。STARFlow-V为了解决这个问题，采用了双架构方法。它有一个组件专门管理跨帧的时间序列，确保运动一致性；另一个组件则负责优化单个帧内的细节，保证画面质量。

这种巧妙的设计，让STARFlow-V在长达30秒的演示片段中都能保持稳定性。而它的竞争对手，像NOVA和Self - Forcing，在生成几秒视频后就开始出现模糊或色彩失真的情况。这就好比一场马拉松比赛，STARFlow-V能稳定跑完全程，而其他选手却早早体力不支。

在视频生成领域，有个有趣的现象，不同模型生成视频的稳定性差异很大。比如一些模型生成短视频还行，但一到长视频就“掉链子”，而STARFlow-V凭借双架构设计，在长视频稳定性上表现突出。

多功能性与性能表现：成绩亮眼也有局限

STARFlow-V的功能十分强大，无需修改就能处理多种任务。它可以进行文本转视频，把文字描述变成生动的视频画面；还能实现图像转视频，将输入的图像作为起始帧，生成连贯的视频；在视频编辑方面，它也毫不逊色，允许用户添加或删除对象。

在VBench基准测试中，STARFlow - V获得了79.7分。虽然这个成绩落后于Veo3（85.06）和HunyuanVideo（83.24）等顶尖扩散模型，但它明显优于其他自回归模型，尤其在空间关系和人体表征方面表现出色。

不过，STARFlow-V也存在一些局限。它的分辨率相对较低，只有640×480，帧率是16帧/秒，而且目前还无法在标准显卡上实时使用。更关键的是，它在物理模拟方面存在明显缺陷，比如会出现“章鱼穿过玻璃”和“石头凭空出现”等不符合物理规律的现象。

未来发展：持续改进，追求卓越

苹果也承认了STARFlow-V存在的这些限制，并且已经有了明确的改进计划。未来，他们将专注于加快计算速度、缩小模型规模，以及使用更注重物理精确性的训练数据。目前，相关代码已经在GitHub上发布，模型权重也将随后在Hugging Face上公布。相信在苹果的不断努力下，STARFlow-V会不断完善，给我们带来更多惊喜。