• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

拒绝彩排,真刀真枪上舞台!美团LongCat-Video-Avatar1.5开源,全面击败主流闭源模型

拒绝彩排,真刀真枪上舞台!美团LongCat-Video-Avatar1.5开源,全面击败主流闭源模型
AI TOP100
1小时前

2026年5月22日,美团龙猫大模型团队宣布正式开源商用级数字人视频生成模型LongCat-Video-Avatar1.5。该版本从开源SOTA迈向商业级实际应用,在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理等核心维度上完成全面跃升,在EvalTalker评测中用户偏好胜率全面超越Kling Avatar2.0、OmniHuman-1.5和HeyGen。

工具地址:美团LongCat官网

美团LongCat-Video-Avatar1.5开源

一、三大能力升级:直击商业化痛点

传统数字人视频存在"抖动、畸变、高延迟"三大顽疾。LongCat-Video-Avatar1.5针对性完成三大升级:

1.1 基础体验商用化:音频编码器升级

模型将音频特征提取编码器从Wav2Vec2升级为Whisper-large。凭借更大的参数量和更丰富的多语言先验,模型能细致捕捉音素变化与发音节奏。这不仅使长句、快语速、歌唱等复杂音频下的唇动更精准,更实现了面部、头部、肢体动作与语音的自然协同,大幅减少了长视频中常见的跳帧和身份漂移。

1.2 强开放域泛化:多阶段增强数据体系

为稳定处理真人、虚拟偶像、动漫及动物等多类主体,团队构建了包含"离线标注"与"在线验证"的多阶段数据处理流程,并针对性注入三类增强数据:

  • 多人数据:利用主动说话人检测,消除多人场景下的音画歧义,准确区分说话者与聆听者
  • 静默数据:筛选未说话视频,让模型学习无语音状态下的自然微表情,避免非说话角色嘴部乱动
  • 情绪数据:结合帧级情绪识别精筛,注入情绪变化,使模型理解语音与表情的深层关联

1.3 手部与连续性专项对齐:引入GRPO

针对电商直播、产品展示等需要频繁露手的场景,模型引入GRPO(人类偏好对齐),将奖励信号细化到逐帧层面,并加入首帧手部检测机制。这显著缓解了手部畸变、局部结构崩塌以及动作不连贯等行业难题。

二、推理效率飙升15倍:告别昂贵算力

商业级应用的另一大核心是成本。LongCat-Video-Avatar1.5采用**DMD(分布匹配蒸馏)**技术,成功将原本需要50步的生成过程压缩至8步。

同时,团队用"一个共享基础模型 + 多个LoRA适配器"的架构替代了传统的三模型并行方案,大幅释放显存。

在实际测试中,模型实现了约15倍的推理效率提升,生成一段10秒的视频仅需约1分钟。

三、权威基准评测:全面领先行业头部模型

基于EvalTalker评测基准,770名评估者与10名领域专家对涵盖新闻、教育、娱乐等复杂场景的视频进行了结构化质量分析。数据显示:

评测维度 LongCat-Video-Avatar1.5 对比模型 胜率/得分
用户偏好胜率 LongCat-Video-Avatar1.5 Kling Avatar2.0 65.9%
用户偏好胜率 LongCat-Video-Avatar1.5 OmniHuman-1.5 61.1%
用户偏好胜率 LongCat-Video-Avatar1.5 HeyGen 54.3%
单人场景得分 3.336 HeyGen等 显著更高
多人场景得分 2.730 InfiniteTalk(2.339) 大幅领先
主体变形率 23.1% 对比模型 最低
背景变形率 9.4% 对比模型 最低
跳帧问题率 0.8% 对比模型 最低
面部-身体同步问题率 5.1% 对比模型 最优
唇形同步问题率 29.8% 对比模型 最优

四、开源资源

  • GitHub:https://github.com/meituan-longcat/LongCat-Video
  • HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
  • 技术报告:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
  • 项目主页:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
  • ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary

五、行业意义

LongCat-Video-Avatar1.5的开源,标志着数字人视频生成从"实验室演示"走向"商业级应用"。15倍的推理效率提升直接降低了算力成本,使得数字人视频的大规模商业化成为可能。

在评测中全面超越Kling Avatar2.0、OmniHuman-1.5和HeyGen,证明国产数字人技术已达到国际领先水平。美团此举不仅是技术展示,更是向全球开发者和创作者发出的共建邀请。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 美团LongCat
  • HeyGen
相关资讯
  • 教程:AI生成电影级写实武侠动作视频《降龙十八掌》,附带提示词

  • 智谱AI推出ZCube组网架构:大模型推理性能与成本双突破,重构智算基础设施

  • Qwen3.7-Max重磅发布:正交解耦技术重构AI Agent底座,多项权威评测登顶国内第一

  • 2026西北首个千人规模AI短剧/漫剧生态发展交流会(西安站)圆满落幕

  • AI视频创作干货:放弃九宫格分镜,六宫格故事板让成片率从20%飙升至70%

热点资讯

智绘菠萝海AI庆百年|2026徐闻菠萝AIGC大赛 “劳模奖” 获奖公示

8天前
智绘菠萝海AI庆百年|2026徐闻菠萝AIGC大赛 “劳模奖” 获奖公示

每日AI资讯-2026年5月18日

3天前
每日AI资讯-2026年5月18日

每日AI资讯-2026年5月14日

7天前
每日AI资讯-2026年5月14日

阿里通义千问Qwen3.7预览版全球首发:文本/视觉双赛道跻身全球前列

2天前
阿里通义千问Qwen3.7预览版全球首发:文本/视觉双赛道跻身全球前列

腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代

6小时前
 腾讯Marvis马维斯正式上线,系统级AI助手重构PC交互,开启个人AI操作系统时代
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有