Video-XL-2
2867
0
0
Video-XL-2是智源研究院联合上海交通大学等机构于2025年6月发布的超长视频理解模型,其核心突破在于单张显卡即可处理万帧级视频输入(约1小时时长的30FPS视频),同时保持轻量化设计(参数规模远低于720亿参数的闭源模型)。
工具标签:
直达网站
工具介绍

Video-XL-2是什么?
Video-XL-2是智源研究院联合上海交通大学等机构于2025年6月发布的超长视频理解模型,其核心突破在于单张显卡即可处理万帧级视频输入(约1小时时长的30FPS视频),同时保持轻量化设计(参数规模远低于720亿参数的闭源模型)。该模型在MLVU、VideoMME和LVBench等主流长视频评测基准上全面超越现有开源模型,尤其在时序定位任务(Charades-STA数据集)中表现卓越,标志着长视频理解技术进入"单卡万帧"时代。
模型架构
Video-XL-2采用"视觉编码-动态建模-语言推理"的三阶段架构:
视觉编码器(SigLIP-SO400M)
- 逐帧解析视频,将每帧图像编码为1024维视觉特征向量,支持336×336分辨率输入。
- 对比初代Video-XL的CLIP-ViT-L编码器,SigLIP在视觉-文本对齐精度上提升15%,同时降低20%计算开销。
动态Token合成模块(DTS)
- 时序建模:通过自注意力机制捕捉帧间动态关系,生成包含时序信息的压缩表征。
- 模态对齐:采用平均池化+MLP将视觉特征映射至文本嵌入空间,实现跨模态语义对齐。
大语言模型(Qwen2.5-Instruct)
- 接收对齐后的视觉表征,完成视频内容理解与推理任务。
- 支持多轮对话、指令跟随等高级功能,例如回答"视频中主角第三次微笑出现在第几秒?"等问题。

技术优势
四阶段渐进式训练策略
- 阶段1-2:基于图像/视频-文本对初始化DTS模块,完成跨模态对齐。
- 阶段3:引入CinePile、NExT-QA等高质量数据集,奠定视觉理解基础。
- 阶段4:在VICO数据集(10万小时长视频标注数据)上微调,强化复杂指令响应能力。
效率优化双引擎
- 分段式预装填(Chunk-based Prefilling):将视频划分为1440-token的片段,片段内使用稠密注意力,片段间通过时间戳传递上下文,显存开销降低60%。
- 双粒度KV解码(Bi-granularity KV Decoding):关键帧加载完整KVs,次要帧加载稀疏KVs,推理速度提升3倍。
性能表现
| 评测基准 | Video-XL-2得分 | 对比模型(720亿参数) | 提升幅度 |
|---|---|---|---|
| MLVU | 89.2 | Qwen2.5-VL-72B: 88.7 | +0.5% |
| LVBench | 91.5 | LLaVA-Video-72B: 90.8 | +0.7% |
| Charades-STA | 68.3 | VideoChat-Flash: 62.1 | +9.9% |
关键突破:在2048帧视频预填充任务中,Video-XL-2仅需12秒(RTX 4090),而Video-XL需要45秒,VideoChat-Flash则需2分钟。
视频处理能力
- 消费级显卡(RTX 3090/4090):支持1024帧(约34秒@30FPS)视频输入,满足短视频分析需求。
- 高性能显卡(A100/H100):支持10000帧(约5.5分钟@30FPS)视频输入,可处理电影片段、监控录像等长视频任务。
- 资源消耗对比:处理1000帧视频时,Video-XL-2显存占用仅18GB,而VideoChat-Flash需32GB。
应用场景
影视内容分析:自动生成电影分镜脚本、剧情摘要,例如识别《奥本海默》中原子弹爆炸场景的视觉符号演变。
监控视频异常检测:在工厂监控中实时检测设备故障(如传送带卡顿),准确率达92%,误报率低于5%。
游戏直播内容分析:解析《黑神话:悟空》实机演示视频,生成技能连招教学文档,支持"BOSS战关键帧定位"等高级查询。
教育视频智能处理:自动标注MOOC课程中的重点知识点,例如在MIT《线性代数》课程中标记"特征值分解"教学片段。
七、未来发展:迈向通用视频理解的下一站
- 多模态扩展:计划集成音频编码器,实现"视听联动"理解(如分析电影中的背景音乐与剧情关联)。
- 实时推理优化:开发流式处理框架,支持监控视频的实时分析与预警。
- 领域自适应:推出医疗、工业等垂直领域微调版本,例如在手术视频分析中实现"器械操作合规性检测"。
结语:开源生态的里程碑
Video-XL-2的发布标志着长视频理解技术从"实验室原型"向"工业级应用"的跨越。其轻量化设计、高效推理能力和开源特性,为学术界和产业界提供了低成本、高可用的技术底座。随着社区的持续迭代,该模型有望在自动驾驶、元宇宙内容生成等领域催生更多创新应用。
评论
全部评论

暂无评论
热门推荐
相关推荐

AudioStory
AudioStory模型是腾讯ARC实验室推出的一款开源音频模型,该模型用大语言模型生成长音频,通过创新的“分而治之”策略与双通道解耦机制,解决了长音频生成中的逻辑与情感断层问题,实现了电影级音频的智能生成与续写,并正以开源策略推动AI音频叙事领域的技术革新。
ACE-Step(音跃)
ACE-Step(音跃)是阶跃星辰与ACE Studio于2025年5月7日联合发布并开源的音乐大模型,它是一款以生成式AI技术为核心的音乐创作工具,参数量为3.5B,支持包括LoRA和ControlNet在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务
DeepCoder-14B-Preview
DeepCoder-14B-Preview是一款专为编码推理设计的生成式AI模型。它是在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调而成。该模型不仅性能卓越,而且开源内容丰富,为开发者提供了深入理解和研究模型开发流程的机会。
AGI-Eval
AGI-Eval,一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构强强联合打造的大模型评测社区,正以“评测助力,让AI成为人类更好的伙伴”为使命,致力于构建一个公正、可信、科学且全面的评测生态体系。这一平台专注于评估基础模型在人类认知与问题解决任务中的通用能力,通过一系
Nes2Net
Nes2Net是专为语音防伪检测量身打造的深度学习模型架构,它直接处理高维特征以避免信息损失,通过独特的嵌套结构实现多层次、多粒度的特征交互,具备无降维处理、多尺度特征提取、轻量化设计以及强鲁棒性与泛化能力等特点,能有效识别多种伪造声音类型,在提升检测精度的同时降低计算成本。
美图奇想大模型
美图奇想大模型(MiracleVision)是由美图公司推出的AI服务平台,专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域。该模型由美图影像研究院提供技术支持和保障,致力于为客户提供经市场验证的专业AI算法服务和解决方案。
谷歌Gemini
谷歌Gemini是一款由Google开发的多模态人工智能语言模型,它具备卓越的自然语言理解和生成能力,能够处理包括文本、图像、音频、视频和代码在内的多种信息类型。于2023年12月6日正式推出,包含了三种不同规模的模型:Gemini Ultra、Gemini Nano和Gemini Pro
VACE
阿里通义Wan团队推出的视频生成和编辑模型VACE,是一款集多功能于一体的创新工具,它支持按条件生成视频、精确控制物体运动轨迹、一键替换视频主体、风格迁移、画面扩展及静态画面动态化等,极大地提升了视频创作的效率和趣味性,为视频内容创作领域带来了全新的可能性。
0
0






