5月22日,美团技术团队在GitHub上悄悄push了一个新版本——LongCat-Video-Avatar 1.5。
没有发布会,没有直播,甚至连官方微博都没发一条。但这个消息在AI圈子里炸开了锅,因为这个版本做的事情很"狂":在770人参与的盲测中,它的表现超过了Kling Avatar 2.0、OmniHuman-1.5和HeyGen。
你没看错,就是那个送外卖的美团。

美团为什么要做数字人?
这个问题我第一次看到的时候也愣了一下。美团不是做外卖、做团购的吗?怎么突然冒出来一个数字人视频生成模型?
其实一点都不突然。翻一下美团的技术博客就会发现,他们从2024年就开始布局视频生成赛道了。2024年10月,美团开源了LongCat-Video视频生成基座模型;2025年12月,推出了LongCat-Video-Avatar 1.0版本。现在这个1.5版,是在1.0基础上的全面升级。
美团的逻辑其实很好理解。他们有海量的短视频内容需求——商家宣传片、骑手培训视频、客服数字人、直播带货……这些场景全都需要数字人视频。与其一直买别人的API,不如自己做一个。
这不是"跨界",这是"降本"。 对美团来说,数字人不是副业,是刚需。
1.5版到底升级了什么?
LongCat-Video-Avatar 1.0版本在去年底发布的时候,已经是开源领域的SOTA(最佳水平)。但说实话,"开源SOTA"和"商业可用"之间,隔着一条很宽的沟。1.0版本有几个明显的短板:长视频容易跳帧、多人场景容易混乱、推理速度慢得让人抓狂。
1.5版本要解决的,就是这些"最后一公里"的问题。
第一个大升级:唇形同步。 音频特征提取编码器从Wav2Vec2换成了Whisper-large。这个升级听起来很技术,但效果非常直观——长句子、快语速、甚至唱歌,嘴型都能跟上。以前的数字人模型,一到快语速就开始"对不上口型",1.5版本在这个问题上有了质的改善。
第二个大升级:物理合理性。 面部表情、头部姿态、肢体动作的协调性被强化了。以前的数字人经常出现"脸在笑但手在抖"的情况,1.5版本通过逐帧级GRPO偏好对齐算法,把手部稳定性和动作连续性都拉上来了。
第三个大升级:多人互动。 这可能是最让人兴奋的一个改进。1.5版本专门增加了多人对话数据的训练,可以在多人场景中自然区分"谁在说话、谁在听"。你给它一段多人对话的音频,它能生成一个自然的多人互动视频,而不是简单地把多个人拼在一起。

第四个大升级:推理效率。 这也是最"暴力"的一个改进。通过DMD蒸馏技术,生成步数从50步压缩到了8步。这意味着什么?推理效率提升了约15倍。 生成一段10秒的视频,从原来的好几分钟压缩到只要1分钟左右。
770人盲测,数据说话
光说升级没用,得看效果。美团这次做了一个相当认真的评测。
他们基于EvalTalker构建了一个覆盖新闻、教育、娱乐等场景的综合基准,邀请了770名评估者完成13,240条主观评分,外加10名专家的结构化分析。这个评测规模,在数字人领域算是相当大的了。
结果呢?
对比Kling Avatar 2.0,胜率65.9%。
对比OmniHuman-1.5,胜率61.1%。
对比HeyGen,胜率54.3%。

在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat-Video-Avatar 1.5都取得了领先。
而且有一个数据特别值得注意:跳帧问题率低至0.8%。 这个数字在长视频生成场景中非常关键。以前用数字人模型生成超过30秒的视频,经常会出现画面突然"跳"一下的情况,1.5版本基本解决了这个问题。
开源的意义:不只是"白送"
LongCat-Video-Avatar 1.5采用的是MIT开源协议。这意味着什么?意味着你可以商用、可以修改、可以分发,几乎没有限制。
这对整个数字人行业的影响是巨大的。
目前市面上的数字人解决方案,要么是闭源的SaaS服务(比如HeyGen、D-ID),按分钟收费,成本不低;要么是开源的学术模型,效果还行但离商用有距离。LongCat-Video-Avatar 1.5的出现,直接填补了"开源+商业可用"这个空白。
你可以把它部署在自己的服务器上,不需要依赖任何第三方API。对于有隐私要求的企业(比如金融、医疗、政务),这一点尤为重要。
而且,美团还一并开源了技术报告、模型权重、评测基准,甚至给出了详细的部署指南。这不是"丢个模型上去就不管了",而是认认真真地在推动社区发展。
对行业意味着什么?
LongCat-Video-Avatar 1.5的开源,对数字人行业至少有三个层面的影响:
第一,拉低了门槛。 以前要做一个效果不错的数字人视频,你得买HeyGen的API,或者自己训练一个模型。现在你可以直接用美团开源的这个,效果不比商业方案差,成本却低得多。
第二,加速了应用落地。 数字人视频的商业化一直受限于两个问题:效果不够好、成本不够低。1.5版本在这两个维度上都有了实质性突破。10秒视频只要1分钟,这意味着你可以批量生产数字人内容了。
第三,倒逼了闭源厂商。 当一个开源模型的效果已经接近甚至超过了商业方案,闭源厂商要么降价,要么提升服务,否则就会被替代。这对整个行业来说是好事。
写在最后
说实话,看到美团开源这个模型的时候,我是有点意外的。
不是意外美团有这个技术实力——毕竟他们有几千人的技术团队,做出来什么都不奇怪。意外的是,他们选择把这么好的模型直接开源了,而且用的是MIT协议。
在AI行业,"开源"和"商业化"之间的关系一直很微妙。有些公司开源是为了引流,有些是为了生态建设,有些纯粹是为了技术声誉。美团这次开源LongCat-Video-Avatar 1.5,我更倾向于相信是第三种——他们想证明自己在AI领域的技术实力。
毕竟,一个能把数字人模型做到开源SOTA的公司,它的AI能力不会只停留在数字人上。
这盘棋,可能比我们看到的要大得多。
参考资料:美团技术团队、IT之家、GitHub








