2025年10月25日,美团正式上线了其最新视频生成模型——LongCat-Video。这一举措,无疑是美团在人工智能领域投下的一颗“重磅炸弹”,标志着其在该领域的探索迈出了极为关键的一步。谁能想到,AI如今不仅能“说话”,还能“看见”世界运行的本质,这背后正是LongCat-Video带来的强大能力。
GitHub地址:https://github.com/meituan-longcat/LongCat-Video
Hugging Face地址:https://huggingface.co/meituan-longcat/LongCat-Video
项目地址:https://meituan-longcat.github.io/LongCat-Video/

模型架构:基于DiT的强大支撑
LongCat-Video是基于Diffusion Transformer(DiT)架构打造的。这可是个厉害的架构,它就像一个“多面手”,能轻松处理多种视频生成任务。不管是根据文本生成视频,还是把图像变成动态视频,亦或是给已有视频续写后续内容,它都不在话下。与以往那些不同任务需要不同模型适配的情况相比,LongCat-Video形成了一个完整的任务闭环,这难道不是一种巨大的进步吗?
核心功能:三大生成任务各显神通
文本生成视频:高清精准解析
文本生成视频功能堪称一绝。它能生成720p、30fps的高清视频,就像给视频装上了“高清滤镜”。而且,它对文本指令的解析精准度极高,语义理解和视觉呈现能力十分出色。打个比方,你输入一段描述精彩战斗场景的文字,它就能迅速生成一个画面震撼、动作流畅的视频,仿佛把你脑海中的画面真实地呈现在眼前。
图像生成视频:特征保留严守规律
图像生成视频功能也有其独特之处。它会严格保留参考图像的各项特征,就像给图像穿上了一层“保护衣”。在动态过程中,它还能确保符合物理规律。比如,你给一张人物奔跑的图像,它能生成一个人物自然奔跑、动作连贯的视频,不会出现人物突然变形或者动作不合理的奇怪情况。
视频续写:长视频生成的核心利器
视频续写功能可是LongCat-Video的核心优势之一。它就像一个“故事接龙大师”,能够根据多帧前序内容续接视频。这对于长视频生成来说,可是提供了强有力的技术支持。以往生成长视频,要么时长不够,要么质量下降,而LongCat-Video有效解决了这个问题,让长视频生成变得更加轻松。
长视频生成:5分钟连贯输出无压力
LongCat-Video最让人惊叹的,当属它出色的长视频生成能力。它能够连续输出长达5分钟的视频,而且在生成过程中,视频质量不会有丝毫损失。这就像给视频生成装上了一个“稳定器”,有效避免了色彩漂移和画质降解的问题。同时,它还能保证跨帧时序一致性和物理运动合理性,让视频看起来自然流畅,毫无违和感。
你知道吗?为了让长视频生成更高效,LongCat-Video还结合了块稀疏注意力和条件token缓存机制。这就好比给模型装上了一个“加速引擎”,大幅提高了长视频生成的效率,解决了以往长视频生成在时长与质量之间的矛盾。以前生成一个5分钟的高质量视频可能需要很长时间,现在有了LongCat-Video,速度大大提升。

性能优化:高分辨率高帧率的平衡之道
在高分辨率和高帧率的视频生成中,LongCat-Video也表现出色。它通过多重优化策略,提升了推理速度,就像给模型进行了一次“升级改造”。在确保生成质量的同时,还能保证效率,实现了质量与效率的最佳平衡。经过严格的内部与公开基准测试,LongCat-Video展现出卓越的通用性能,综合能力达到开源领域的领先水平。
值得一提的是,随着AI技术在视频领域的不断渗透,未来视频创作或许会迎来一场新的变革。而LongCat-Video的上线,无疑为创作者开启了长视频创作的新旅程,让视频生成变得更加简单高效。相信在不久的将来,我们能看到更多由LongCat-Video生成的精彩长视频。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









