2026年5月22日,美团龙猫大模型团队宣布正式开源商用级数字人视频生成模型LongCat-Video-Avatar1.5。该版本从开源SOTA迈向商业级实际应用,在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理等核心维度上完成全面跃升,在EvalTalker评测中用户偏好胜率全面超越Kling Avatar2.0、OmniHuman-1.5和HeyGen。
工具地址:美团LongCat官网

一、三大能力升级:直击商业化痛点
传统数字人视频存在"抖动、畸变、高延迟"三大顽疾。LongCat-Video-Avatar1.5针对性完成三大升级:
1.1 基础体验商用化:音频编码器升级
模型将音频特征提取编码器从Wav2Vec2升级为Whisper-large。凭借更大的参数量和更丰富的多语言先验,模型能细致捕捉音素变化与发音节奏。这不仅使长句、快语速、歌唱等复杂音频下的唇动更精准,更实现了面部、头部、肢体动作与语音的自然协同,大幅减少了长视频中常见的跳帧和身份漂移。
1.2 强开放域泛化:多阶段增强数据体系
为稳定处理真人、虚拟偶像、动漫及动物等多类主体,团队构建了包含"离线标注"与"在线验证"的多阶段数据处理流程,并针对性注入三类增强数据:
- 多人数据:利用主动说话人检测,消除多人场景下的音画歧义,准确区分说话者与聆听者
- 静默数据:筛选未说话视频,让模型学习无语音状态下的自然微表情,避免非说话角色嘴部乱动
- 情绪数据:结合帧级情绪识别精筛,注入情绪变化,使模型理解语音与表情的深层关联
1.3 手部与连续性专项对齐:引入GRPO
针对电商直播、产品展示等需要频繁露手的场景,模型引入GRPO(人类偏好对齐),将奖励信号细化到逐帧层面,并加入首帧手部检测机制。这显著缓解了手部畸变、局部结构崩塌以及动作不连贯等行业难题。
二、推理效率飙升15倍:告别昂贵算力
商业级应用的另一大核心是成本。LongCat-Video-Avatar1.5采用**DMD(分布匹配蒸馏)**技术,成功将原本需要50步的生成过程压缩至8步。
同时,团队用"一个共享基础模型 + 多个LoRA适配器"的架构替代了传统的三模型并行方案,大幅释放显存。
在实际测试中,模型实现了约15倍的推理效率提升,生成一段10秒的视频仅需约1分钟。
三、权威基准评测:全面领先行业头部模型
基于EvalTalker评测基准,770名评估者与10名领域专家对涵盖新闻、教育、娱乐等复杂场景的视频进行了结构化质量分析。数据显示:
| 评测维度 | LongCat-Video-Avatar1.5 | 对比模型 | 胜率/得分 |
|---|---|---|---|
| 用户偏好胜率 | LongCat-Video-Avatar1.5 | Kling Avatar2.0 | 65.9% |
| 用户偏好胜率 | LongCat-Video-Avatar1.5 | OmniHuman-1.5 | 61.1% |
| 用户偏好胜率 | LongCat-Video-Avatar1.5 | HeyGen | 54.3% |
| 单人场景得分 | 3.336 | HeyGen等 | 显著更高 |
| 多人场景得分 | 2.730 | InfiniteTalk(2.339) | 大幅领先 |
| 主体变形率 | 23.1% | 对比模型 | 最低 |
| 背景变形率 | 9.4% | 对比模型 | 最低 |
| 跳帧问题率 | 0.8% | 对比模型 | 最低 |
| 面部-身体同步问题率 | 5.1% | 对比模型 | 最优 |
| 唇形同步问题率 | 29.8% | 对比模型 | 最优 |
四、开源资源
- GitHub:https://github.com/meituan-longcat/LongCat-Video
- HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
- 技术报告:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
- 项目主页:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
- ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary
五、行业意义
LongCat-Video-Avatar1.5的开源,标志着数字人视频生成从"实验室演示"走向"商业级应用"。15倍的推理效率提升直接降低了算力成本,使得数字人视频的大规模商业化成为可能。
在评测中全面超越Kling Avatar2.0、OmniHuman-1.5和HeyGen,证明国产数字人技术已达到国际领先水平。美团此举不仅是技术展示,更是向全球开发者和创作者发出的共建邀请。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










