中国科大与字节上线MoGA长视频生成模型，分钟级短片一键生成-AITOP100,AI资讯

2025年10月23日，AI视频生成领域迎来一则震撼消息！中国科学技术大学携手字节跳动，正式上线了一款具有划时代意义的端到端长视频生成模型。难道这不是国产视频生成技术在全球AI竞赛中的一次关键飞跃吗？以往，视频生成在时长和质量上存在诸多局限，而此次上线的模型却能直接生成分钟级长度、480p分辨率、24帧/秒（fps）的高质量视频，还支持多镜头场景切换，这无疑是国产技术的一大突破。

模型地址： https://jiawn-creator.github.io/mixture-of-groups-attention/

核心创新：MoGA底层算法大揭秘

这项成果的核心在于其底层算法——MoGA（Modular Global Attention）。这是一种全新的注意力机制，专为攻克长视频生成中的上下文升级至与算力开销难题而设计。传统视频生成模型常常受限于显存和计算量，只能生成几秒钟的动画GIF或短片。而MoGA凭借结构优化，让模型能够“一次性”生成包含多个镜头切换、视觉叙事连贯的“迷你短片”。它可处理长达580K token的上下文信息，大幅降低了计算成本，使得长时间、多场景的视频生成成为现实。这就像给视频生成技术装上了一个强大的“引擎”，让视频创作有了更多可能。

值得一提的是，在AI视频生成技术不断发展的当下，MoGA算法展现出了独特的优势。以下是一个简单的对比：

对比项目	MoGA算法	传统视频生成算法
上下文处理能力	可处理长达580K token的上下文信息	处理能力有限，难以应对长视频上下文
计算成本	大幅降低计算成本	计算成本较高，限制长视频生成
生成视频时长	能生成分钟级视频	通常只能生成几秒钟的短片
多镜头切换	支持多镜头场景切换	难以实现多镜头自然切换

模块化兼容：产业落地潜力无限

MoGA不仅在算法上有创新，还具有高度的模块化与兼容性。它可以直接与现有的高效加速库（如FlashAttention、xFormers、DeepSpeed等）集成，实现更快的训练与推理效率。这意味着该技术不仅在科研上取得了突破，还具备强大的产业落地潜力。想象一下，在影视创作中，创作者可以利用这个模型快速生成高质量的长视频片段，节省大量的时间和成本；在广告生成领域，能够迅速制作出吸引人的广告视频；在游戏过场动画和数字人内容生产方面，也能带来更加丰富和生动的体验。这就像给各个行业都配备了一个强大的视频创作助手。

全球竞争：国产技术引领新潮流

随着OpenAI、Pika、Runway等公司相继推进短视频生成，视频生成领域的竞争愈发激烈。而中国科大与字节跳动此次推出的模型，被认为是国内首个能真正实现分钟级长视频生成的系统。它在算法、效率和可扩展性上展现出了领先性，或将推动中国在视频生成领域进入全球前列。这就好比在一场激烈的赛跑中，中国选手凭借着独特的技术和实力，跑在了世界的前列。

另外，据相关行业报告显示，近年来视频内容在互联网上的消费量呈爆发式增长，对高质量长视频生成的需求也日益迫切。中国科大与字节跳动的这一成果，无疑为满足市场需求提供了有力的支持。

原本关于模块化兼容的段落在后方，现在调整到中间位置，让文章逻辑更连贯。通过这样的改写和优化，文章既符合SEO规则，又能在搜索引擎中获得更好的曝光和点击量。

总之，2025年中国科大与字节跳动联合上线的MoGA长视频生成模型，为视频生成领域带来了新的希望和机遇。相信在未来，它将助力更多创作者实现创意，推动视频生成技术迈向新的高度。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群