AI视频生成：开源模型崛起，价格战一触即发？-AITOP100,AI资讯

AI视频领域的新变局

继DeepSeek在今年春节期间的快速发展之后，全球都在关注下一个DeepSeek的出现。

2月底，阿里巴巴的通义万相Wanx 2.1模型开源，短短6天就超越DeepSeek-R1，迅速登上模型热榜和模型空间榜两大榜单。随后，腾讯混元、阶跃星辰、昆仑万维等公司也陆续推出了新的开源视频生成大模型。

那么，“下一个DeepSeek”会在AI视频领域诞生吗？

专业AI视频创作者、传统影视行业、短剧产业链以及网文平台等IP拥有者，对此都给予了高度关注。

所谓的“下一个DeepSeek”可以理解为“模型效果达到领先水平+开源”。核心问题在于，一个足够优秀的开源视频大模型，是否会迫使目前的视频生成平台大幅降低价格，使视频生成变得更加廉价？

如果真的发生这种情况，又会产生什么样的连锁反应？

开源的冲击

事情的起因是X（推特）上突然涌现的大量AI美女视频。

2月25日，阿里巴巴宣布开源通义万相2.1视频生成模型，不仅巩固了中国在全球AI开源领域的领先地位，也激发了技术爱好者的热情。

据介绍，该模型支持文生视频和图生视频任务，降低了对显存的需求，从而降低了技术门槛。它还支持无限时长的1080P视频编解码，14B版本在权威评测Vbench中超越了Sora、Luma等国外知名模型。

更重要的是，Wanx 2.1模型不仅在开源许可方面非常宽松，而且在很多能力上也是之前的开源甚至闭源模型难以企及的。

它是“全球首个支持中文文字特效生成”的视频模型，能够深入理解“中国风”指令（例如生成水墨晕染的“福”字视频）。它还可以精准地模拟物理规律（例如雨滴溅落的动态效果）。

经过X用户的实际测试，该模型对某些特定指令没有屏蔽过多的关键词，因此生成的内容更加开放和多元，从而吸引了大量的用户主动传播。

万相2.1开源后，6天内就登顶Hugging Face趋势榜，与此后开源的文本大模型QWQ-32B先后占据榜首，阿里巴巴也被一些开发者称为“源神”。

开源模型搅动市场，国内其他重要的开源视频大模型也在这几个月内密集发布：

腾讯混元HunyuanVideo-I2V已经开源了推理代码和权重，拥有130亿参数，支持5秒短视频生成，新增了口型同步和舞蹈动作驱动功能，支持中英文生成，并声称在文本一致性和运动质量等方面表现领先。

阶跃星辰 Step-Video-T2V开源模型支持复杂场景生成，在人物动作和物理规律方面表现较好，例如芭蕾舞动作的生成等。

昆仑万维 SkyReels-V1面向AI短剧创作，基于13B参数微调了好莱坞影视数据，支持T2V和I2V，生成电影级的光影和表情动作。开源一周内，Hugging Face的下载量超过2.4万次。其短剧应用DramaWave和FreeReels全球下载量达到2309万次，内购收入流水超过780万美元，如果能够实现实拍和AI短剧混合推送，那么盈利空间确实很大。

与此同时，闭源的视频大模型也在积极跟进。1月底，生数科技公布了Vidu 2.0版本，生成速度最快不到10秒，单秒视频成本仅需“4分钱”；官网还推出了错峰模式（低峰时段不限量生成，且不扣积分）。

生数科技最近动作频频，先是首席执行官唐家渝聘请了原字节跳动火山引擎AI解决方案负责人骆怡航担任新的CEO；然后又入驻联想小天，通过PC预装的方式来吸引新用户，还与两位好莱坞导演组建了一个新的动画工作室，计划合作拍摄一些AI动画大片。

字节跳动除了主打即梦品牌之外，去年底也开始在“豆包”客户端上测试视频生成入口，并在今年春节前后全面上线。豆包的视频生成功能免费，但每天限制10次；与即梦相比，在清晰度和能力上也有一些限制。

价格战的前夜？

DeepSeek通过技术优化，全面普及了原本高昂的推理模型，并大幅降低了成本，API定价仅为OpenAI同类模型的3%。

这迫使国内外闭源大模型厂商紧急调整。OpenAI紧急将GPT-4.5、深度研究等功能从每月200美元的最高档会员下放。百度原本收费50元一个月的文心一言会员4月1日起全面免费。阿里巴巴的通义和腾讯的混元大模型API价格也下调至每百万tokens 0.1元区间。

目前，国内视频生成领域两大平台可灵和即梦的会员定价依然坚挺，分别为66元/月和69元/月。虽然包年价格略微便宜一些，有时也会有折扣，但总体上单次生成的费用约为0.6元/秒。

由于缺乏局部修改功能，创作者需要依赖随机生成后“抽卡”的方式来完成内容制作，单个镜头经常需要反复生成几十次。

从传统广告公司转型为AI短剧的夫子AI团队介绍，他们开通了可灵和即梦的包年会员，两家年费合计5594元（平均每月约466元）。他们制作的AI短剧《我在阴间送外卖》，单个镜头需要“抽卡”30次以上，每次花费约3.5元，单个镜头的成本超过100元，整部短剧的制作成本约为5000元，最终播放量超过90万，虽然没有直接收入，但也吸引了商业客户的询单。

由广告人转型为AI科幻短片的希希叔叔，选择制作非系列化的单集短片，例如《失败者宇宙》，以降低对画面一致性的高要求。他每月花费约200元开通可灵+即梦会员，单部短片的成本控制在2000元以内。作为个人创作者，他通过会员积分和“闲时折扣”来压缩成本，一部短片的制作周期约为7天。

由UI设计师转型为AI短剧的丹尼，主要依靠本职工作收入来支持创作。他制作的《白骨精前传》抽卡花费约5000-6000元，平均每月投入超过1000元。丹尼尝试过海外服务，但Runway的价格是可灵的10倍（约1美元/5秒视频），因此坚持使用国内平台。

与海外定价相比，国外平台的费用平均约为国内的5-6倍（就像国内1元=国外1美元）。谷歌最新发布的Veo 2视频生成模型，每秒0.5美元的定价更是离谱，4秒钟就需要15元。

参照DeepSeek引发的“按厘计价”风潮，一个足够普及的视频生成大模型，有望迫使头部闭源模型的API价格下降到原本的1/10；企业服务也可能从万元级别的项目制，转变为百元级别的订阅制，导致“大模型施工队”面临失业的风险。

如果开源视频大模型复制DeepSeek的路径，那么当前可灵、即梦等，甚至Sora、Veo等海外模型的商业模式都将面临巨大的挑战。

视频的特殊性与普遍性

虽然万相2.1表现出色，但尚未达到DeepSeek那种连竞争对手都要接入的程度，因此价格战尚未真正打响。实际上，目前市面上任何一个AI视频大模型，其效果都还没有完全达到可以替代真人实拍的水平，依然存在明显的“AI味”，更不用说乱码和鬼画符等幻觉问题。

即使有商业化的想法，人们也不敢轻易地给AI短片配上与人工短片一样的价格。湖南台风芒App播出的《兴安岭诡事》的制作成本为60万元，全集解锁只需要5.9元，与真人微短剧显然不在一个档次。该剧最终的播放量达到了5000万次。

有些人乐观地将万相2.1比作DeepSeek的V3或者V2时刻，期待着一个视频版的“R1”会横空出世，给业界带来期待已久的冲击。

但是，实际情况可能没有那么简单。

目前国内AI视频创作者主要使用的平台，实际上各有特点。可灵的核心优势在于真实的人类动作和高清晰度。可口可乐广告团队认为，可灵生成的人类动作更自然，而且画面清晰度领先于其他工具（例如Leonardo、Runway）。

娱乐资本论之前的报道中提到，创作者董嘉琦认为可灵对文本的语义理解能力更强，模型迭代速度快，能够快速响应复杂的需求；擅长生成符合东方审美的场景和人物，适合广告、短剧等需要真实感和高完成度的场景。

创作者朱旭评价说，即梦对物理世界的运动逻辑（例如物体碰撞、光影变化）模拟更精准，适合现实类短片、纪录片风格的内容。即梦也较早推出了首尾帧控制功能。

生数Vidu在动漫风格化和多主体参考功能上表现突出（例如生成多角色互动镜头）。正如其在《毒液：最后一舞》的水墨宣传片中所展示的，生成的镜头运动更具创意，适合抽象或艺术化的表达。因此，它受到了二次元动画和艺术实验短片作者的欢迎。

Runway、Luma等国外工具则常被用于欧美风格的创作。

因此，专业视频团队的工作流程很难完全摆脱对定价较高的“两巨头”的惯性使用，就像在作图领域有豆包的替代方案，但MidJourney或Recraft的特定风格仍然具有一定的依赖性一样。

现在开源视频模型的发展还不如DeepSeek的水平，但视频生成领域的价格战可能已经箭在弦上。

同样是闭源模型的生数科技Vidu，在推出2.0版本后也上线了全新的收费套餐，直接将每秒单价成本降至最低4分钱。以各家720P每秒单价计算，Vidu 2.0为0.258元/秒，是行业平均价格的一半不到；而且官网的“错峰模式”在半夜“抽卡”，甚至是完全免费的。

去年底，生数科技投融资负责人樊家睿对娱乐资本论表示，今年Vidu预计在生成速度、多元一致性和多模态真正融合方面会有重大突破。“生成速度方面，Vidu将进一步‘逼近极限’。把速度提上来，意味着把性价比提上来，AI视频生成会更普及、更高效。”

全网都在考虑“你们大模型全开源了，那到底怎么挣钱啊”的问题。但是即使没有开源的冲击，闭源厂商一样会卷价格，因为视频大模型背后没有秘密。

正如Manus联合创始人张涛此前所说，光鲜亮丽的Sora背后也是“大算力出奇迹”的常规路线，是算力、算法、数据堆叠而成的结果。各家闭源厂商可以用常规的步伐，快速走量，从而压低价格。

年初震撼业界的Sora最后是“起个大早，赶个晚集”。在国内视频生成模型的军备竞赛中，效果迅速达到世界领先水平，得到了全球客户的认可。去年圣诞节可口可乐的广告使用了可灵作为主力工具。

根据AI产品榜统计的2月份应用数据，可灵海外版在全球认知度更高，占到出海总榜的第12位，海外版的月活环比增幅也达到了90.55%。相比之下，曾经的当红炸子鸡Luma月活下降了31%，是2月份统计中降速最大的应用。

现在的问题显然是，这个赛道里的参与者还不够多。

API和本地部署问题

影响定价的另一个变量是，如果云计算平台放开了部署一些视频大模型的API，或者用户在自己的电脑上安装稍微小一点的模型，使得普通视频的制作成本降低，是否会牵动头部模型降价？

DeepSeek官网和官方API在春节期间被突然涌入的流量冲击到瘫痪，但所谓“一鲸落，万物生”，云计算提供商早一天部署R1，用量早一天暴涨。

微软、腾讯、百度均一反常态，第一时间在云服务和C端产品两方面接入DeepSeek。硅基流动的日均调用量突破千亿token，较半年前增长了十倍，从名不见经传的小型云一下变得路人皆知。

现在来看视频生成模型方面。近期比较出名的开源模型，都已经在HuggingFace和魔搭等地开放使用。如果厂商有自己的云，也会第一时间上线部署。

作为不自带云的小厂，阶跃的模型和Vidu等类似，都是优先服务于自家官网平台，目前首要任务还是获得更多人的接触和使用。

不过，所有这些服务都没有出现那种“国运级别”的用量暴涨。

当然，中小型云服务商很乐意接入尽可能全面的开源模型，以便将用户锁定在自己的服务内。去年11月，硅基流动上线了由Lightricks开源的视频生成模型LTX-Video，这是一个基于DiT架构的2B参数模型，能够在832*480分辨率下生成24 FPS的视频。

但另一个现实问题是，对视频生成模型API的调用，目前还缺乏一个普遍的方案。Chatbox、Cherry Studio等网页UI或客户端，都只覆盖了文字对话或者文生图界面，对视频生成的界面、参数等尚未统一。

而且，从文本、图片到视频，其token的消耗和浪费程度是倍数上升，相对的用户用量也逐级下降。

视频还有一个额外问题，只要预览每次“抽卡”的成果，都可能带来很大的服务器负担。娱乐资本论之前探讨为什么国内视频网站的画面都是“糊的”，曾经提到了平台出于服务器成本压力，不得不降低码率，用锐化等方法蒙混过关的苦衷。

云服务商自己也需要做一些性能调优，例如硅基流动的OneDiff加速库，据说可以使Stable Diffusion出图效率提升3倍。不过如何将类似经验迁移到视频上，真正做到给普通用户省钱，形成对商用模型的竞争态势，现在还没有明确的方案。

至于本地部署——在自己的电脑上放一个模型，当然是免费且不限量的，但之前的问题是要么笨重，要么速度慢。

DeepSeek-V3和R1有大量社区用户结合llama、qwen进行蒸馏，使其有机会运行在PC、Mac甚至手机上面。这是两年多以来，用户终于可以断网运行一个基本可用的模型，本地大模型不再只是“样子货”。

但是在图片和视频生成方面，还没有迎来这样的时刻，目前本地小模型依然处于使用起来非常困难的状态。用户可以在本地部署Stable Diffusion已经有很长时间了，但Midjourney一直没有因此而降价。

通义万相2.1小型的1.3B版本可在消费级显卡（例如RTX4090）上运行，生成480P视频仅需4分钟——但没有人向你保证本机生成480P视频可以解决画质、一致性、细节和幻觉问题。

总之，视频和图片一样，如果一次生成无法进行局部修改，必须“抽卡”的局面不改变，那么现有模型仅凭画风及连续性上的细微区别，就会一直维持各自的江湖地位。

AI视频创作的全面普及

根据AI产品榜2月份的应用数据，国内总榜中即梦排行第9，月活环比增加106%；Minimax的海螺第19（不过这是分拆改名之前的数据），环比月活也增加10%，同时海螺以日均使用时长6.63分钟排在国内时长榜的第2位；可灵独立客户端第23，月活环比增加113%。

这意味着过去一个月，一些头部视频生成大模型的C端使用都有了大幅度的增长。App的增速上升，无疑也意味着视频制作的下沉，因为专业创作者更喜欢使用Web端来生成。

随着豆包和元宝这两个通用AI客户端都加入了视频创作功能，更多下沉用户认知到AI视频，并且在日常生活中尝试，只是时间问题。

在娱乐资本论 ·视智未来的《对话AI创业者》节目中，闪剪智能的创始人严华培提到，由于算法优化和技术更新，数字人的制作定价从最初的8000元，降至去年8月时的300多元。通过订阅制，会员可以付费后多次修改数字人形象。

但如果是以大模型路线，而不是传统数字人路线来做，那么数字人的价格可能会降至几块钱甚至免费，它可能会从大厂和媒体，降到网店老板，之后进一步下沉到菜市场的摊主。

回想DeepSeek发布之后，似乎有很多人的“任督二脉”突然被打通。它触达了以前可能从未接触过、也从未想象过的圈层。

父母辈使用DeepSeek询问子女的婚姻解法，年轻人则为自己算命、购买开运宝石，或是通过联网搜索充当购物导购。也有越来越多的AI网文充斥各大平台，使人类作者和编辑感到痛苦。

在抖音快手等平台将拍摄短视频的自由下放给所有人之后，视频大模型的快速普及将是“技术民主化”的又一次飞跃。

事实证明，一项技术不是要等到发展成熟了才向下推广。当前的视频生成还存在清晰度、幻觉等严重的问题，但这可能并不是海量普通人在使用时会考虑的问题。

近期一些典型的“AI造谣”案件，不论是地震中小孩子的假图片，还是娱乐资本论曾经揭露的“江西帮”炮制所谓“西安爆炸”假新闻，无一例外，并没有尝试做得特别逼真，只是用了最简单的，甚至是两三年前的过期AI技术。

当“抽卡自由”彻底释放人类的表达欲，视频内容将会汇入文本和图片的洪流，它们早已与AI难解难分。我们和我们的后代所处的世界，将被生成式内容共同塑造和改变。