• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

美团悄悄开源了一个数字人模型,把Kling和HeyGen都比下去了

美团悄悄开源了一个数字人模型,把Kling和HeyGen都比下去了
严学峰
1小时前


5月22日,美团技术团队在GitHub上悄悄push了一个新版本——LongCat-Video-Avatar 1.5。

没有发布会,没有直播,甚至连官方微博都没发一条。但这个消息在AI圈子里炸开了锅,因为这个版本做的事情很"狂":在770人参与的盲测中,它的表现超过了Kling Avatar 2.0、OmniHuman-1.5和HeyGen。

你没看错,就是那个送外卖的美团。



美团为什么要做数字人?

这个问题我第一次看到的时候也愣了一下。美团不是做外卖、做团购的吗?怎么突然冒出来一个数字人视频生成模型?

其实一点都不突然。翻一下美团的技术博客就会发现,他们从2024年就开始布局视频生成赛道了。2024年10月,美团开源了LongCat-Video视频生成基座模型;2025年12月,推出了LongCat-Video-Avatar 1.0版本。现在这个1.5版,是在1.0基础上的全面升级。

美团的逻辑其实很好理解。他们有海量的短视频内容需求——商家宣传片、骑手培训视频、客服数字人、直播带货……这些场景全都需要数字人视频。与其一直买别人的API,不如自己做一个。

这不是"跨界",这是"降本"。 对美团来说,数字人不是副业,是刚需。



1.5版到底升级了什么?

LongCat-Video-Avatar 1.0版本在去年底发布的时候,已经是开源领域的SOTA(最佳水平)。但说实话,"开源SOTA"和"商业可用"之间,隔着一条很宽的沟。1.0版本有几个明显的短板:长视频容易跳帧、多人场景容易混乱、推理速度慢得让人抓狂。

1.5版本要解决的,就是这些"最后一公里"的问题。

第一个大升级:唇形同步。 音频特征提取编码器从Wav2Vec2换成了Whisper-large。这个升级听起来很技术,但效果非常直观——长句子、快语速、甚至唱歌,嘴型都能跟上。以前的数字人模型,一到快语速就开始"对不上口型",1.5版本在这个问题上有了质的改善。

第二个大升级:物理合理性。 面部表情、头部姿态、肢体动作的协调性被强化了。以前的数字人经常出现"脸在笑但手在抖"的情况,1.5版本通过逐帧级GRPO偏好对齐算法,把手部稳定性和动作连续性都拉上来了。

第三个大升级:多人互动。 这可能是最让人兴奋的一个改进。1.5版本专门增加了多人对话数据的训练,可以在多人场景中自然区分"谁在说话、谁在听"。你给它一段多人对话的音频,它能生成一个自然的多人互动视频,而不是简单地把多个人拼在一起。

第四个大升级:推理效率。 这也是最"暴力"的一个改进。通过DMD蒸馏技术,生成步数从50步压缩到了8步。这意味着什么?推理效率提升了约15倍。 生成一段10秒的视频,从原来的好几分钟压缩到只要1分钟左右。



770人盲测,数据说话

光说升级没用,得看效果。美团这次做了一个相当认真的评测。

他们基于EvalTalker构建了一个覆盖新闻、教育、娱乐等场景的综合基准,邀请了770名评估者完成13,240条主观评分,外加10名专家的结构化分析。这个评测规模,在数字人领域算是相当大的了。

结果呢?

对比Kling Avatar 2.0,胜率65.9%。

对比OmniHuman-1.5,胜率61.1%。

对比HeyGen,胜率54.3%。

在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat-Video-Avatar 1.5都取得了领先。

而且有一个数据特别值得注意:跳帧问题率低至0.8%。 这个数字在长视频生成场景中非常关键。以前用数字人模型生成超过30秒的视频,经常会出现画面突然"跳"一下的情况,1.5版本基本解决了这个问题。



开源的意义:不只是"白送"

LongCat-Video-Avatar 1.5采用的是MIT开源协议。这意味着什么?意味着你可以商用、可以修改、可以分发,几乎没有限制。

这对整个数字人行业的影响是巨大的。

目前市面上的数字人解决方案,要么是闭源的SaaS服务(比如HeyGen、D-ID),按分钟收费,成本不低;要么是开源的学术模型,效果还行但离商用有距离。LongCat-Video-Avatar 1.5的出现,直接填补了"开源+商业可用"这个空白。

你可以把它部署在自己的服务器上,不需要依赖任何第三方API。对于有隐私要求的企业(比如金融、医疗、政务),这一点尤为重要。

而且,美团还一并开源了技术报告、模型权重、评测基准,甚至给出了详细的部署指南。这不是"丢个模型上去就不管了",而是认认真真地在推动社区发展。



对行业意味着什么?

LongCat-Video-Avatar 1.5的开源,对数字人行业至少有三个层面的影响:

第一,拉低了门槛。 以前要做一个效果不错的数字人视频,你得买HeyGen的API,或者自己训练一个模型。现在你可以直接用美团开源的这个,效果不比商业方案差,成本却低得多。

第二,加速了应用落地。 数字人视频的商业化一直受限于两个问题:效果不够好、成本不够低。1.5版本在这两个维度上都有了实质性突破。10秒视频只要1分钟,这意味着你可以批量生产数字人内容了。

第三,倒逼了闭源厂商。 当一个开源模型的效果已经接近甚至超过了商业方案,闭源厂商要么降价,要么提升服务,否则就会被替代。这对整个行业来说是好事。



写在最后

说实话,看到美团开源这个模型的时候,我是有点意外的。

不是意外美团有这个技术实力——毕竟他们有几千人的技术团队,做出来什么都不奇怪。意外的是,他们选择把这么好的模型直接开源了,而且用的是MIT协议。

在AI行业,"开源"和"商业化"之间的关系一直很微妙。有些公司开源是为了引流,有些是为了生态建设,有些纯粹是为了技术声誉。美团这次开源LongCat-Video-Avatar 1.5,我更倾向于相信是第三种——他们想证明自己在AI领域的技术实力。

毕竟,一个能把数字人模型做到开源SOTA的公司,它的AI能力不会只停留在数字人上。

这盘棋,可能比我们看到的要大得多。



参考资料:美团技术团队、IT之家、GitHub

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 每日AI资讯-2026年5月25日

  • 每日AI资讯-2026年5月22日

  • 每日AI资讯-2026年5月21日

  • 每日AI资讯-2026年5月20日

  • 每日AI资讯-2026年5月19日

热点资讯

腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代

3天前
 腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代

每日AI资讯-2026年5月18日

7天前
每日AI资讯-2026年5月18日

淘宝视频无限帧 V2.0 AI创意内容挑战赛火热进行中....

3天前
淘宝视频无限帧 V2.0 AI创意内容挑战赛火热进行中....

拒绝彩排,真刀真枪上舞台!美团LongCat-Video-Avatar1.5开源,全面击败主流闭源模型

3天前
拒绝彩排,真刀真枪上舞台!美团LongCat-Video-Avatar1.5开源,全面击败主流闭源模型

🚀 速度狂飙4倍 + 免费开放!谷歌Gemini 3.5 Flash重塑大模型行业格局

4天前
🚀 速度狂飙4倍 + 免费开放!谷歌Gemini 3.5 Flash重塑大模型行业格局
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有