字节跳动正式推出了其全新研发的多模态大语言模型——Vidi2。这款拥有120亿参数 的AI模型,专为视频理解量身打造,一经发布便引发了行业内外的广泛关注,被众多专业人士视为对现有视频编辑行业的一次重大变革。
博客地址:https://www.alphaxiv.org/abs/2511.19529
核心突破:精细时空定位(STG)铸就强大视频理解能力
Vidi2的核心亮点:在于其卓越的视频理解能力,而其中新增的精细时空定位(STG)功能更是关键所在。这一功能使得模型能够同时精准识别视频中的时间戳以及目标对象的边界框。简单来说,当用户给出文本查询时,Vidi2 不仅能迅速定位到对应的时间段,还能在该时间段内精确标记出具体物体的位置。
从技术细节层面深入剖析,时空定位功能有着独特的工作机制。模型会返回“管道”(时间索引边界框),以一秒为粒度对指定对象和人物进行跟踪。这一特性在实际应用中具有极大价值,例如在人群密集的场景中,能够轻松跟踪特定人物,为视频编辑工作提供了前所未有的便利。
在技术架构方面,Vidi2 进行了全面升级。它采用Gemma-3作为主干网络,并搭配重新设计的自适应标记压缩技术。这一组合确保了模型在处理长视频时,既能保持高效运行,又不会丢失关键细节,为处理复杂视频内容提供了坚实的技术支撑。

性能卓越:超长视频理解领域一骑绝尘
Vidi2 在行业基准测试中的表现堪称惊艳。在用于开放式时间检索的 VUE - TR - V2 基准测试中,其总体 IoU 达到了 48.75。尤其值得一提的是,在 超长视频(超过 1 小时) 的处理上,Vidi2 展现出了明显优势,其表现比商业模型领先 17.5 个百分点。在定位任务(VUE - STG)上,该模型同样成绩斐然,取得了 vIoU32.57 和 tIoU53.19 的最佳性能。这些数据充分证明了 Vidi2 在视频理解领域的强大实力。
从模型到产品:TikTok 孕育“智能剪辑师”
基于 Vidi2 的强大能力,字节跳动迅速将其转化为实际生产力,开发出了一系列实用的自动化编辑工具。这些工具涵盖了多个方面,包括高光提取、故事感知剪切、内容感知重构图以及多视角切换等。令人惊喜的是,这些功能并非仅适用于高端专业设备,而是能够在消费级硬件上流畅运行,大大降低了使用门槛。
在 TikTok 应用中,相关技术已经得到了实际应用。例如 TikTok 的 Smart Split 功能,借助 Vidi2 的能力,能够自动完成剪辑、重构图、添加字幕等一系列操作,还能将长视频转录成适合 TikTok 平台的短片段,极大地提升了内容创作效率。
此外,还有一款名为 AI Outline 的工具也备受瞩目。它能够将简单的提示或热门话题转化为结构化的视频标题、开头和大纲,为创作者提供了丰富的创意灵感和便捷的创作思路。
行业影响:大平台技术优势引发竞争格局变化
Vidi2的发布,结合字节跳动旗下 TikTok 庞大的 10 亿日活用户数据平台 优势,使得该模型能够获取海量视频数据进行训练,并通过实时反馈不断优化。这一优势为原生的 AI 公司带来了巨大挑战。随着大平台公司凭借强大的技术实力和数据资源,不断加速技术迭代,传统 AI 公司可能将面临更为激烈的竞争压力,行业格局或许将因此发生深刻变化。
目前,Vidi2 仍处于研究阶段,不过官方已透露 Demo 即将发布。这一消息无疑让众多科技爱好者和行业从业者充满期待。相信在不久的将来,Vidi2 将凭借其卓越的性能和创新的功能,为视频编辑领域带来更多惊喜,推动整个行业迈向新的发展阶段。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









