美团悄悄开源了一个数字人模型，把Kling和HeyGen都比下去了-AITOP100,AI资讯

2026年5月22日，美团技术团队在GitHub上悄悄push了一个新版本——LongCat-Video-Avatar 1.5。

没有发布会，没有直播，甚至连官方微博都没发一条。但这个消息在AI圈子里炸开了锅，因为这个版本做的事情很"狂"：在770人参与的盲测中，它的表现超过了Kling Avatar 2.0、OmniHuman-1.5和HeyGen。

你没看错，就是那个送外卖的美团。

AI人工智能

美团为什么要做数字人？

这个问题我第一次看到的时候也愣了一下。美团不是做外卖、做团购的吗？怎么突然冒出来一个数字人视频生成模型？

其实一点都不突然。翻一下美团的技术博客就会发现，他们从2024年就开始布局视频生成赛道了。2024年10月，美团开源了LongCat-Video视频生成基座模型；2025年12月，推出了LongCat-Video-Avatar 1.0版本。现在这个1.5版，是在1.0基础上的全面升级。

美团的逻辑其实很好理解。他们有海量的短视频内容需求——商家宣传片、骑手培训视频、客服数字人、直播带货……这些场景全都需要数字人视频。与其一直买别人的API，不如自己做一个。

这不是"跨界"，这是"降本"。 对美团来说，数字人不是副业，是刚需。

1.5版到底升级了什么？

LongCat-Video-Avatar 1.0版本在去年底发布的时候，已经是开源领域的SOTA（最佳水平）。但说实话，"开源SOTA"和"商业可用"之间，隔着一条很宽的沟。1.0版本有几个明显的短板：长视频容易跳帧、多人场景容易混乱、推理速度慢得让人抓狂。

1.5版本要解决的，就是这些"最后一公里"的问题。

第一个大升级：唇形同步。 音频特征提取编码器从Wav2Vec2换成了Whisper-large。这个升级听起来很技术，但效果非常直观——长句子、快语速、甚至唱歌，嘴型都能跟上。以前的数字人模型，一到快语速就开始"对不上口型"，1.5版本在这个问题上有了质的改善。

第二个大升级：物理合理性。 面部表情、头部姿态、肢体动作的协调性被强化了。以前的数字人经常出现"脸在笑但手在抖"的情况，1.5版本通过逐帧级GRPO偏好对齐算法，把手部稳定性和动作连续性都拉上来了。

第三个大升级：多人互动。 这可能是最让人兴奋的一个改进。1.5版本专门增加了多人对话数据的训练，可以在多人场景中自然区分"谁在说话、谁在听"。你给它一段多人对话的音频，它能生成一个自然的多人互动视频，而不是简单地把多个人拼在一起。

机器人

第四个大升级：推理效率。 这也是最"暴力"的一个改进。通过DMD蒸馏技术，生成步数从50步压缩到了8步。这意味着什么？推理效率提升了约15倍。 生成一段10秒的视频，从原来的好几分钟压缩到只要1分钟左右。

770人盲测，数据说话

光说升级没用，得看效果。美团这次做了一个相当认真的评测。

他们基于EvalTalker构建了一个覆盖新闻、教育、娱乐等场景的综合基准，邀请了770名评估者完成13,240条主观评分，外加10名专家的结构化分析。这个评测规模，在数字人领域算是相当大的了。

结果呢？

对比Kling Avatar 2.0，胜率65.9%。

对比OmniHuman-1.5，胜率61.1%。

对比HeyGen，胜率54.3%。

AI模型评测

在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上，LongCat-Video-Avatar 1.5都取得了领先。

而且有一个数据特别值得注意：跳帧问题率低至0.8%。 这个数字在长视频生成场景中非常关键。以前用数字人模型生成超过30秒的视频，经常会出现画面突然"跳"一下的情况，1.5版本基本解决了这个问题。

开源的意义：不只是"白送"

LongCat-Video-Avatar 1.5采用的是MIT开源协议。这意味着什么？意味着你可以商用、可以修改、可以分发，几乎没有限制。

这对整个数字人行业的影响是巨大的。

目前市面上的数字人解决方案，要么是闭源的SaaS服务（比如HeyGen、D-ID），按分钟收费，成本不低；要么是开源的学术模型，效果还行但离商用有距离。LongCat-Video-Avatar 1.5的出现，直接填补了"开源+商业可用"这个空白。

你可以把它部署在自己的服务器上，不需要依赖任何第三方API。对于有隐私要求的企业（比如金融、医疗、政务），这一点尤为重要。

而且，美团还一并开源了技术报告、模型权重、评测基准，甚至给出了详细的部署指南。这不是"丢个模型上去就不管了"，而是认认真真地在推动社区发展。

对行业意味着什么？

LongCat-Video-Avatar 1.5的开源，对数字人行业至少有三个层面的影响：

第一，拉低了门槛。 以前要做一个效果不错的数字人视频，你得买HeyGen的API，或者自己训练一个模型。现在你可以直接用美团开源的这个，效果不比商业方案差，成本却低得多。

第二，加速了应用落地。 数字人视频的商业化一直受限于两个问题：效果不够好、成本不够低。1.5版本在这两个维度上都有了实质性突破。10秒视频只要1分钟，这意味着你可以批量生产数字人内容了。

第三，倒逼了闭源厂商。 当一个开源模型的效果已经接近甚至超过了商业方案，闭源厂商要么降价，要么提升服务，否则就会被替代。这对整个行业来说是好事。

写在最后

说实话，看到美团开源这个模型的时候，我是有点意外的。

不是意外美团有这个技术实力——毕竟他们有几千人的技术团队，做出来什么都不奇怪。意外的是，他们选择把这么好的模型直接开源了，而且用的是MIT协议。

在AI行业，"开源"和"商业化"之间的关系一直很微妙。有些公司开源是为了引流，有些是为了生态建设，有些纯粹是为了技术声誉。美团这次开源LongCat-Video-Avatar 1.5，我更倾向于相信是第三种——他们想证明自己在AI领域的技术实力。

毕竟，一个能把数字人模型做到开源SOTA的公司，它的AI能力不会只停留在数字人上。

这盘棋，可能比我们看到的要大得多。

参考资料：美团技术团队、IT之家、GitHub

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码：

AITOP100平台官方交流社群二维码