智源研究院发布Video-XL-2：长视频理解迎来新突破！-AITOP100,AI资讯

最近，智源研究院联合上海交通大学这些大牛，搞出来一个超级厉害的东西——Video-XL-2，一款新一代的超长视频理解模型。这玩意儿的出现，意味着咱们在长视频理解技术上，终于有了重大突破，而且还是开源的！这绝对给多模态大模型在长视频内容理解方面注入了新的动力。

Video-XL-2：技术架构大揭秘

这个Video-XL-2，主要有三个核心部件：视觉编码器、动态Token合成模块（DTS）还有大语言模型(LLM)。

Video-XL-2的训练方式也很特别，分四个阶段，一步一个脚印，让它拥有强大的长视频理解能力：

Video-XL-2在效率方面也下了不少功夫：

有了这些优化，Video-XL-2就能在单张显卡上高效推理万帧级的视频，实用性大大增强！

在各种长视频评测中，Video-XL-2全面超越了现有的轻量级开源模型，达到了目前最先进的水平。更厉害的是，在某些测试中，它的性能甚至接近甚至超过了那些参数规模高达720亿的大模型！而且，在时序定位任务中，也取得了领先的结果，证明了它在多模态视频理解场景中的广泛适用性。

Video-XL-2在处理视频长度方面，优势非常明显。在一般的显卡上，可以处理长达千帧的视频；在高性能显卡上，更是可以支持万帧级的视频输入。这比之前的VideoChat-Flash和初代Video-XL强太多了！

Video-XL-2的速度也是杠杠的，只需要12秒就能完成2048帧视频的预填充。而且，预填充时间与输入帧数之间呈现出近似线性增长，说明它的可扩展性非常好。

Video-XL-2在很多实际应用场景中都有巨大的潜力：

现在，Video-XL-2的模型权重已经完全开放，这意味着任何人都可以使用它，改进它，让它变得更好。

相信未来，Video-XL-2会在更多实际场景中发挥重要作用，推动长视频理解技术的进一步发展。

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集