• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

字节开源 Bernini:AI 视频编辑,终于开始“听得懂人话”了

字节开源 Bernini:AI 视频编辑,终于开始“听得懂人话”了
严学峰
11小时前

当视频生成从“一次出片”走向“反复修改”,真正的难题不再只是画质,而是可控性。


过去一年,AI 视频模型的进步很快:清晰度更高,镜头更顺,风格也越来越丰富。

但如果你真的把它放进创作流程里,很快会遇到另一个问题:生成容易,修改很难。

比如,你想把一段晴天城市航拍改成雪天。很多模型可能只是往画面里加一些雪花,天空、路面反光、建筑光照却没有同步变化。再比如,你想把一张海报贴进商场 LED 屏,结果边缘漂、透视乱,镜头一动就露馅。

这类问题,表面看是“效果不稳定”,本质上是模型没有真正理解:用户到底想改什么、哪些地方必须保留、哪些变化要沿着时间轴保持一致。

字节跳动商业化技术团队近日开源的视频生成与编辑统一框架 Bernini,瞄准的正是这个痛点。公开信息显示,Bernini 的核心思路是:先由多模态大模型做语义理解和规划,再由 Diffusion/DiT 渲染器生成高质量视频,目前 Bernini-R 的推理代码和权重已开放,完整包含 MLLM Planner 的版本仍在整理中。ref_1

一、AI 视频最难的,不是“生成”,而是“改得准”

单张图片编辑已经不简单,视频编辑更麻烦。

因为视频不是一帧图,而是一段连续的时空关系。你改天气,不能只改天;你改动作,不能让主体身份变了;你改材质,纹理不能跟着镜头乱飘;你植入一张图,边界、光照、透视都要跟着原视频走。

所以,真正可用的视频编辑模型,至少要同时处理四件事:

  1. 听懂指令:知道用户要改的是天气、风格、主体、材质,还是镜头焦点;
  2. 保留结构:不该动的主体、背景、镜头关系要尽量稳住;
  3. 保持时序一致:前后帧不能闪烁、漂移、变形;
  4. 支持参考素材:图片、视频参考不能只是“看个大概”,而要真正约束结果。

这也是 Bernini 被关注的原因。它不是只强调“生成一段好看的视频”,而是把问题推进到更贴近生产流程的一步:生成之后,怎么继续改?



二、Bernini 的解法:先理解,再动手


Bernini 的架构可以简单理解成一个“导演 + 后期”的组合。

前半段像导演:由 MLLM-based planner 负责理解文本指令、源视频、参考图片和参考视频,判断目标画面应该变成什么样。它不是直接画像素,而是先形成一个目标语义表示,相当于给后续生成过程画一张“语义草图”。

后半段像后期:由 DiT-based renderer 负责把语义规划转成连续视频画面。对于视频编辑任务,它还会结合源视频的 VAE features,尽量保留原视频里的细节和非编辑区域,避免“一改就全片跑偏”。[ref_1]

这个分工看起来朴素,但很关键。

以往很多视频生成模型更像是“看到 prompt 就开画”。如果 prompt 不够精确,模型就会自由发挥;如果用户只想改局部,模型可能把整段视频重来一遍。Bernini 试图在中间加上一层“理解和规划”,先弄清楚创作意图,再进入渲染阶段。

换句话说,它要解决的不是“能不能生成”,而是“能不能按人的想法稳定地生成”。

三、可控编辑:从天气、材质,到动作和镜头焦点

公开案例里,Bernini 覆盖了多类视频编辑任务,包括天气变化、风格迁移、材质替换、主体动作调整、焦点和视角控制等。ref_1

这些能力放到创作场景里,价值很直接。

比如天气编辑,不只是把晴天加成雪天滤镜,而是要让天空、路面、建筑、光照整体联动,画面看起来像真实发生了天气变化。

比如材质替换,不只是把盘子“贴一层纹理”,而是要让布料、金属、大理石等材质跟随物体运动保持稳定,不在几帧之后错位或漂移。

再比如动作编辑,难度更高。主体一旦动起来,模型既要改变动作,又要保持身份、体型、环境和镜头关系。如果动作改了,背景跟着抖,或者主体在运动中变形,创作者很难直接使用。

这也是 AI 视频从“演示效果”走向“生产工具”必须迈过的坎:用户不是只要一个惊艳样片,而是要能修改、能复用、能交付。

四、参考素材会变得越来越重要

只靠一句 prompt,很难描述复杂视觉需求。

广告片要指定商品,短剧要固定角色,影视预演要匹配场景,美术风格还可能来自一张参考图。对创作者来说,最自然的表达方式往往不是写一大段文字,而是直接给模型看:就要这个材质、这个角色、这个构图、这个画面氛围。

Bernini 支持图片和视频作为参考输入,这一点很实用。公开信息显示,它可以做参考主体加入、材质参考、风格参考、图像/视频植入,也支持基于参考图生成新视频,包括单图参考、多元素组合参考、多角度参考以及关键帧到连续镜头等场景。ref_1

这背后对应的是一个更大的趋势:AI 视频创作正在从“文生视频”走向“多模态可控创作”。

未来真正高频的工作流,很可能不是创作者输入一句话然后等结果,而是:

  • 给一段原始视频;
  • 给几张品牌、角色或材质参考;
  • 用自然语言说明要改哪里;
  • 模型只修改该修改的区域,并保持全片一致。

这更像一个 AI 版后期软件,而不只是一个视频盲盒生成器。

五、一个技术细节:为什么多参考容易“认混”?

当模型同时接收源视频、目标视频、参考图、参考视频时,会遇到一个很现实的问题:不同素材可能拥有相似的时间和空间坐标。

如果不加区分,模型很容易把“参考素材”和“需要编辑的视频”混在一起。结果就是:该保留的没保留,该迁移的迁移错,甚至把参考图当成目标画面的一部分。

Bernini 引入了 Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE) 来处理这个问题。简单说,就是给不同视觉片段加上 segment 标记,让模型知道哪一段是参考、哪一段是源视频、哪一段是要生成的目标,同时保留时间和空间位置关系。[ref_1]

这个细节说明,视频可控编辑并不是单纯“模型更大就行”。它需要在数据组织、时空表示、多模态对齐上做专门设计。

六、对行业意味着什么?

Bernini 的意义,不只是字节又开源了一个视频模型框架。

更重要的是,它把 AI 视频的竞争焦点往前推了一步:从“谁能生成更炫的 demo”,转向“谁能更好地进入真实创作流程”。

真实流程里,用户一定会反复改。客户要换产品包装,导演要调整镜头焦点,品牌方要统一色调,后期要把素材精准植入。这里面最值钱的不是一次性出片,而是可控、可解释、可迭代。

从这个角度看,Bernini 代表的是一种方向:

AI 视频模型必须先理解创作意图,再执行视觉生成;必须能接收多种参考素材,也必须尽量减少随机性。

当然,也要保持冷静。目前公开信息显示,率先开放的是 Bernini-R,对应三阶段训练流程中的第二阶段模型;包含完整 MLLM Planner 的版本还在整理中。ref_1 也就是说,它距离完整释放能力还有一步。

但方向已经很清楚了:AI 视频不会停留在“输入一句话,生成一段片子”。下一阶段的核心,是把视频生成变成一种更可靠的创作基础设施。

结语:少一点抽卡,多一点可控

对创作者来说,最怕的不是 AI 生成得不够漂亮,而是它每次都不听话。

想改一个局部,结果全片变了;想保留一个角色,结果镜头一转就变脸;想引用一张参考图,最后只学到一点风格,关键元素全跑偏。

Bernini 试图解决的,就是这种“失控感”。

它把视频编辑拆成理解、规划、渲染几个环节,让模型先弄明白创作者想要什么,再把这种理解转化为稳定的视频结果。

如果这条路线继续成熟,AI 视频工具会越来越像真正的后期协作者:不只是帮你生成画面,也能帮你把画面改到位。

到那时,视频生成的关键词可能不再只是“惊艳”,而是更朴素也更重要的两个字:可控。




参考资料

[ref_1] 量子位/腾讯网:《字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手》,2026-06-02。  [ref_2] 新浪财经转载量子位:《字节开源统一框架Bernini:AI视频编辑先理解再动手》,2026-06-02。  [ref_3] ITBear科技资讯:《字节开源视频新框架Bernini:多模态规划+Diffusion渲染,AI视频编辑精准可控再升级》,2026-06-02。  [ref_4] 搜狐/财法观天下:《字节跳动开源AI视频编辑框架Bernini:实现可控视频生成》,2026-06-02。

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 字节开源 Bernini:AI 视频编辑,终于开始“听得懂人话”了

  • 新版小浣熊的功能详解:一个真正懂职场任务的 AI 助理,升级在哪里?

  • 小米深夜亮剑!MiMo-V2.5强势发布,罗福莉领衔打造最强AI智能体

  • 🦞 百虾大战终局测评:5款国产AI办公助手横评

  • OpenClaw安装后必看!你真的会科学养虾吗?第1天和第47天的Openclaw有什么区别?

热点资讯

每日AI资讯-2026年6月01日

3天前
每日AI资讯-2026年6月01日

AI大赛:邦德咖啡-邦德先生AI脑洞大赛,10万元等你来赢取

1天前
AI大赛:邦德咖啡-邦德先生AI脑洞大赛,10万元等你来赢取

从代码工具变身全能职场助手!OpenAI Codex重磅更新,6大岗位插件打通全行业办公链路

1天前
从代码工具变身全能职场助手!OpenAI Codex重磅更新,6大岗位插件打通全行业办公链路

AIGC大赛:第二届海尚无邪·AI赋能大赛

1天前
AIGC大赛:第二届海尚无邪·AI赋能大赛

AIGC大赛:可灵AI×候鸟300 AIGC影像大赛火热进行中...

7天前
AIGC大赛:可灵AI×候鸟300 AIGC影像大赛火热进行中...
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有