字节开源 Bernini：AI 视频编辑，终于开始“听得懂人话”了-AITOP100,AI资讯

当视频生成从“一次出片”走向“反复修改”，真正的难题不再只是画质，而是可控性。

过去一年，AI 视频模型的进步很快：清晰度更高，镜头更顺，风格也越来越丰富。

但如果你真的把它放进创作流程里，很快会遇到另一个问题：生成容易，修改很难。

比如，你想把一段晴天城市航拍改成雪天。很多模型可能只是往画面里加一些雪花，天空、路面反光、建筑光照却没有同步变化。再比如，你想把一张海报贴进商场 LED 屏，结果边缘漂、透视乱，镜头一动就露馅。

这类问题，表面看是“效果不稳定”，本质上是模型没有真正理解：用户到底想改什么、哪些地方必须保留、哪些变化要沿着时间轴保持一致。

字节跳动商业化技术团队近日开源的视频生成与编辑统一框架 Bernini，瞄准的正是这个痛点。公开信息显示，Bernini 的核心思路是：先由多模态大模型做语义理解和规划，再由 Diffusion/DiT 渲染器生成高质量视频，目前 Bernini-R 的推理代码和权重已开放，完整包含 MLLM Planner 的版本仍在整理中。ref_1

一、AI 视频最难的，不是“生成”，而是“改得准”

单张图片编辑已经不简单，视频编辑更麻烦。

因为视频不是一帧图，而是一段连续的时空关系。你改天气，不能只改天；你改动作，不能让主体身份变了；你改材质，纹理不能跟着镜头乱飘；你植入一张图，边界、光照、透视都要跟着原视频走。

所以，真正可用的视频编辑模型，至少要同时处理四件事：

听懂指令：知道用户要改的是天气、风格、主体、材质，还是镜头焦点；
保留结构：不该动的主体、背景、镜头关系要尽量稳住；
保持时序一致：前后帧不能闪烁、漂移、变形；
支持参考素材：图片、视频参考不能只是“看个大概”，而要真正约束结果。

这也是 Bernini 被关注的原因。它不是只强调“生成一段好看的视频”，而是把问题推进到更贴近生产流程的一步：生成之后，怎么继续改？

二、Bernini 的解法：先理解，再动手

Bernini 的架构可以简单理解成一个“导演 + 后期”的组合。

前半段像导演：由 MLLM-based planner 负责理解文本指令、源视频、参考图片和参考视频，判断目标画面应该变成什么样。它不是直接画像素，而是先形成一个目标语义表示，相当于给后续生成过程画一张“语义草图”。

后半段像后期：由 DiT-based renderer 负责把语义规划转成连续视频画面。对于视频编辑任务，它还会结合源视频的 VAE features，尽量保留原视频里的细节和非编辑区域，避免“一改就全片跑偏”。[ref_1]

这个分工看起来朴素，但很关键。

以往很多视频生成模型更像是“看到 prompt 就开画”。如果 prompt 不够精确，模型就会自由发挥；如果用户只想改局部，模型可能把整段视频重来一遍。Bernini 试图在中间加上一层“理解和规划”，先弄清楚创作意图，再进入渲染阶段。

换句话说，它要解决的不是“能不能生成”，而是“能不能按人的想法稳定地生成”。

三、可控编辑：从天气、材质，到动作和镜头焦点

公开案例里，Bernini 覆盖了多类视频编辑任务，包括天气变化、风格迁移、材质替换、主体动作调整、焦点和视角控制等。ref_1

这些能力放到创作场景里，价值很直接。

比如天气编辑，不只是把晴天加成雪天滤镜，而是要让天空、路面、建筑、光照整体联动，画面看起来像真实发生了天气变化。

比如材质替换，不只是把盘子“贴一层纹理”，而是要让布料、金属、大理石等材质跟随物体运动保持稳定，不在几帧之后错位或漂移。

再比如动作编辑，难度更高。主体一旦动起来，模型既要改变动作，又要保持身份、体型、环境和镜头关系。如果动作改了，背景跟着抖，或者主体在运动中变形，创作者很难直接使用。

这也是 AI 视频从“演示效果”走向“生产工具”必须迈过的坎：用户不是只要一个惊艳样片，而是要能修改、能复用、能交付。

四、参考素材会变得越来越重要

只靠一句 prompt，很难描述复杂视觉需求。

广告片要指定商品，短剧要固定角色，影视预演要匹配场景，美术风格还可能来自一张参考图。对创作者来说，最自然的表达方式往往不是写一大段文字，而是直接给模型看：就要这个材质、这个角色、这个构图、这个画面氛围。

Bernini 支持图片和视频作为参考输入，这一点很实用。公开信息显示，它可以做参考主体加入、材质参考、风格参考、图像/视频植入，也支持基于参考图生成新视频，包括单图参考、多元素组合参考、多角度参考以及关键帧到连续镜头等场景。ref_1

这背后对应的是一个更大的趋势：AI 视频创作正在从“文生视频”走向“多模态可控创作”。

未来真正高频的工作流，很可能不是创作者输入一句话然后等结果，而是：

给一段原始视频；
给几张品牌、角色或材质参考；
用自然语言说明要改哪里；
模型只修改该修改的区域，并保持全片一致。

这更像一个 AI 版后期软件，而不只是一个视频盲盒生成器。

五、一个技术细节：为什么多参考容易“认混”？

当模型同时接收源视频、目标视频、参考图、参考视频时，会遇到一个很现实的问题：不同素材可能拥有相似的时间和空间坐标。

如果不加区分，模型很容易把“参考素材”和“需要编辑的视频”混在一起。结果就是：该保留的没保留，该迁移的迁移错，甚至把参考图当成目标画面的一部分。

Bernini 引入了 Segment-Aware 3D Rotary Positional Embedding（SA-3D RoPE） 来处理这个问题。简单说，就是给不同视觉片段加上 segment 标记，让模型知道哪一段是参考、哪一段是源视频、哪一段是要生成的目标，同时保留时间和空间位置关系。[ref_1]

这个细节说明，视频可控编辑并不是单纯“模型更大就行”。它需要在数据组织、时空表示、多模态对齐上做专门设计。

六、对行业意味着什么？

Bernini 的意义，不只是字节又开源了一个视频模型框架。

更重要的是，它把 AI 视频的竞争焦点往前推了一步：从“谁能生成更炫的 demo”，转向“谁能更好地进入真实创作流程”。

真实流程里，用户一定会反复改。客户要换产品包装，导演要调整镜头焦点，品牌方要统一色调，后期要把素材精准植入。这里面最值钱的不是一次性出片，而是可控、可解释、可迭代。

从这个角度看，Bernini 代表的是一种方向：

AI 视频模型必须先理解创作意图，再执行视觉生成；必须能接收多种参考素材，也必须尽量减少随机性。

当然，也要保持冷静。目前公开信息显示，率先开放的是 Bernini-R，对应三阶段训练流程中的第二阶段模型；包含完整 MLLM Planner 的版本还在整理中。ref_1 也就是说，它距离完整释放能力还有一步。

但方向已经很清楚了：AI 视频不会停留在“输入一句话，生成一段片子”。下一阶段的核心，是把视频生成变成一种更可靠的创作基础设施。

结语：少一点抽卡，多一点可控

对创作者来说，最怕的不是 AI 生成得不够漂亮，而是它每次都不听话。

想改一个局部，结果全片变了；想保留一个角色，结果镜头一转就变脸；想引用一张参考图，最后只学到一点风格，关键元素全跑偏。

Bernini 试图解决的，就是这种“失控感”。

它把视频编辑拆成理解、规划、渲染几个环节，让模型先弄明白创作者想要什么，再把这种理解转化为稳定的视频结果。

如果这条路线继续成熟，AI 视频工具会越来越像真正的后期协作者：不只是帮你生成画面，也能帮你把画面改到位。

到那时，视频生成的关键词可能不再只是“惊艳”，而是更朴素也更重要的两个字：可控。

参考资料

[ref_1] 量子位/腾讯网：《字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手》，2026-06-02。 [ref_2] 新浪财经转载量子位：《字节开源统一框架Bernini：AI视频编辑先理解再动手》，2026-06-02。 [ref_3] ITBear科技资讯：《字节开源视频新框架Bernini：多模态规划+Diffusion渲染，AI视频编辑精准可控再升级》，2026-06-02。 [ref_4] 搜狐/财法观天下：《字节跳动开源AI视频编辑框架Bernini：实现可控视频生成》，2026-06-02。