拒绝彩排，真刀真枪上舞台！美团LongCat-Video-Avatar1.5开源，全面击败主流闭源模型-AITOP100,AI资讯

2026年5月22日，美团龙猫大模型团队宣布正式开源商用级数字人视频生成模型LongCat-Video-Avatar1.5。该版本从开源SOTA迈向商业级实际应用，在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理等核心维度上完成全面跃升，在EvalTalker评测中用户偏好胜率全面超越Kling Avatar2.0、OmniHuman-1.5和HeyGen。

工具地址：美团LongCat官网

美团LongCat-Video-Avatar1.5开源

一、三大能力升级：直击商业化痛点

传统数字人视频存在"抖动、畸变、高延迟"三大顽疾。LongCat-Video-Avatar1.5针对性完成三大升级：

1.1 基础体验商用化：音频编码器升级

模型将音频特征提取编码器从Wav2Vec2升级为Whisper-large。凭借更大的参数量和更丰富的多语言先验，模型能细致捕捉音素变化与发音节奏。这不仅使长句、快语速、歌唱等复杂音频下的唇动更精准，更实现了面部、头部、肢体动作与语音的自然协同，大幅减少了长视频中常见的跳帧和身份漂移。

1.2 强开放域泛化：多阶段增强数据体系

为稳定处理真人、虚拟偶像、动漫及动物等多类主体，团队构建了包含"离线标注"与"在线验证"的多阶段数据处理流程，并针对性注入三类增强数据：

多人数据：利用主动说话人检测，消除多人场景下的音画歧义，准确区分说话者与聆听者
静默数据：筛选未说话视频，让模型学习无语音状态下的自然微表情，避免非说话角色嘴部乱动
情绪数据：结合帧级情绪识别精筛，注入情绪变化，使模型理解语音与表情的深层关联

1.3 手部与连续性专项对齐：引入GRPO

针对电商直播、产品展示等需要频繁露手的场景，模型引入GRPO（人类偏好对齐），将奖励信号细化到逐帧层面，并加入首帧手部检测机制。这显著缓解了手部畸变、局部结构崩塌以及动作不连贯等行业难题。

二、推理效率飙升15倍：告别昂贵算力

商业级应用的另一大核心是成本。LongCat-Video-Avatar1.5采用**DMD（分布匹配蒸馏）**技术，成功将原本需要50步的生成过程压缩至8步。

同时，团队用"一个共享基础模型 + 多个LoRA适配器"的架构替代了传统的三模型并行方案，大幅释放显存。

在实际测试中，模型实现了约15倍的推理效率提升，生成一段10秒的视频仅需约1分钟。

三、权威基准评测：全面领先行业头部模型

基于EvalTalker评测基准，770名评估者与10名领域专家对涵盖新闻、教育、娱乐等复杂场景的视频进行了结构化质量分析。数据显示：

评测维度	LongCat-Video-Avatar1.5	对比模型	胜率/得分
用户偏好胜率	LongCat-Video-Avatar1.5	Kling Avatar2.0	65.9%
用户偏好胜率	LongCat-Video-Avatar1.5	OmniHuman-1.5	61.1%
用户偏好胜率	LongCat-Video-Avatar1.5	HeyGen	54.3%
单人场景得分	3.336	HeyGen等	显著更高
多人场景得分	2.730	InfiniteTalk(2.339)	大幅领先
主体变形率	23.1%	对比模型	最低
背景变形率	9.4%	对比模型	最低
跳帧问题率	0.8%	对比模型	最低
面部-身体同步问题率	5.1%	对比模型	最优
唇形同步问题率	29.8%	对比模型	最优