字节跳动海藻Seaweed：70亿参数打造超强视频生成模型，中小团队也能玩转！

字节跳动海藻Seaweed：70亿参数打造超强视频生成模型，中小团队也能玩转！

字节跳动放大招：Seaweed视频生成模型来了！

各位小伙伴们，字节跳动Seed团队又搞了个大新闻！他们推出了全新的视频生成基础模型，名字也很接地气，叫做Seaweed海藻，是不是一听就感觉很亲切？（其实是“Seed-Video”的缩写，这波谐音梗玩得溜！）

这款Seaweed模型，厉害之处在于它仅有70亿参数，却能达到甚至超越那些140亿参数视频模型的效果！简直就是小身材，大能量！

更让人惊喜的是，它能根据你输入的文字描述，自动生成各种分辨率（原生支持1280x720）、任意宽高比和时长的视频。想怎么玩，就怎么玩！

而且，训练Seaweed模型只花了665000 H100 GPU小时，要知道，同类型的模型通常需要超过百万GPU小时！这效率，杠杠的！相当于1000个H100跑了27.7天就搞定了。

更给力的是，中小团队也能轻松部署Seaweed，只需要40GB显存的单GPU就能生成1280x720分辨率的视频。妈妈再也不用担心我的显卡不够用了！

Seaweed的核心技能：想你所想，造你所见

作为一款基础模型，Seaweed的功能自然是相当全面。

像文章开头展示的那些小动物、风景视频，对它来说简直是小菜一碟。想生成什么，说句话就行！

它还支持图像生成，增强了控制功能，能对视频的首尾帧进行精细调节。想要视频开头结尾更精彩？没问题！

而且，Seaweed支持微调，可以根据你提供的“参考主体”图像生成视频，无论是单张还是多张，都能轻松转换成流畅的动态视频。简直就是把静态照片变成电影大片！

更酷的是，Seaweed还能结合字节跳动的多模态数字人方案Omnihuman，只需要一张照片和一段音频，就能生成一段逼真的人物视频。人物的口型、肢体动作都能和音频完美同步，简直就像真人一样！

不仅如此，Seaweed还能用视频生成音频，让音频更贴合视频的场景和风格。视频需要配乐？Seaweed帮你搞定！

除了这些基础功能，Seaweed还结合了字节跳动以往的技术成果，带来了更多惊喜。

它可以生成长篇故事视频，你既可以提供整体的故事情节描述，也可以为每个镜头提供详细的文字描述。想拍一部属于自己的电影？Seaweed帮你圆梦！

这背后是“长上下文调优”和面向长篇叙述生成的“VideoAuteur”等技术的强大支撑。

高清画质

Seaweed不仅原生支持1280x720分辨率，还能进一步提升到2K（2560x1440）分辨率。细节控们，这下满意了吧！

这得益于SeedVR技术，它基于Diffusion Transformer实现了通用的视频修复功能。

实时生成

Seaweed可以实时生成分辨率为1280x720、帧率为24fps的视频。让你不再需要漫长的等待！

此外，Seaweed还支持“摄影机”控制生成和物理一致性生成，这背后有CameraCtrl II和SimDrop技术加持。

与其他模型对比情况。

图像到视频任务。

文本到视频的任务。

在单个H100 GPU运行中，Seaweed的响应速度是Wan-2.1（参数量是Seaweed的两倍）的62分之一。这速度，简直是飞一般的感觉！

Seaweed的技术秘诀：低成本，高效益

Seaweed之所以如此强大，离不开其背后的技术创新。他们的目标是在视频生成基础模型的训练上，实现低成本高效益。

他们选择训练一个中等规模的模型——约70亿个参数的DiT模型，使用665000个H100 GPU Hours从头开始训练该模型，相当于在1000个H100 GPU上训练27.7天。

主要从数据处理、模型架构设计以及训练策略和优化这三个方面入手。

数据处理：精益求精

他们拥有一套完整的数据处理流程，包括时间分割、空间裁剪、质量过滤、多视角数据平衡、重复数据删除和视频字幕等环节。

每个环节都力求做到最好。

比如在字幕任务中，他们发现使用更大的72B LLM可以减少幻觉。但是，使用72B模型为海量视频生成字幕的计算成本太高。

于是，他们选择将72B模型作为教师模型，然后蒸馏出一个7B的学生模型，既节省了成本，又提高了准确率。此外，他们还将详细字幕“推导”成简短字幕，类似于思维链过程，进一步提高了简短字幕的准确率——从84.81%到90.84%。

有了这套强大的数据处理系统，他们每天可以处理超过500000小时的视频数据。

模型架构设计：VAE + Diffusion Transformer

Seaweed的模型架构由64x压缩比 VAE与Diffusion Transformer结合而成。

VAE由编码器和解码器组成，编码器将原始像素数据压缩到一个紧凑的潜在空间，解码器则根据这些潜在特征重建原始输入像素。

这种设计为视频生成提供了两个优势：一是统一了图像和视频编码，使第一帧条件图像视频生成任务变得自然；二是消除了两个推断片段之间边界的闪烁，并允许编码和解码任意长的视频，而无需人工拼接。

在Diffusion Transformer方面，他们用图像和视频的原始分辨率和持续时间对它们进行混合训练。为了平衡运行时的计算，较短的序列被打包在一起。

多阶段多任务学习训练策略：步步为营

他们采用了从低分辨率到高分辨率的多阶段渐进式训练策略。

在Pre-Training阶段，他们只通过低分辨率图像对模型进行预训练，这样就能建立文本摘要与常见视觉概念之间的对齐关系。

在Post-training阶段，他们会应用监督微调（SFT），然后是人类反馈强化学习（RLHF），以进一步提高输出结果的美学质量、动作一致性和结构连贯性。

这一阶段分别针对文本到视频和图像到视频任务进行。

此外，在Infra层面，他们还做了以下优化：采用并行策略在长语境视频中训练7B模型；引入了运行时平衡（Runtime Balance）策略，以减轻图像和视频联合训练过程中的负载不平衡；设计了多级激活检查点（MLAC），以减少GPU内存使用量和重新计算开销。

最后，他们还通过实施融合的CUDA内核来简化零散的I/O操作，从而优化GPU利用率。

因此，在大规模分布式训练中，Seaweed-7B的模型FLOPs利用率（MFU）达到了38%。

Seaweed背后的英雄团队

Seaweed的成功离不开其背后强大的研究团队。

这个团队由蒋路、冯佳时、杨振恒、杨建超领导。

其中蒋路是去年加入字节的前谷歌高级科学家，曾负责谷歌视频生成工作，在多个谷歌产品中做出了重要贡献，同时也是CMU兼职教授。

冯佳时则是首次曝光的“关键8人”之一，大模型视觉基础研究团队负责人，专注于计算机视觉、机器学习领域的相关研究及其在多媒体中的应用。

具体研究团队成员如下：

基础设施以及贡献者还有这些：

0

0

文章来源：AI TOP100

原文链接：https://36kr.com/p/3251000798847233

免责声明：本文不代表本平台立场，且不构成投资建议，请谨慎对待。

全部评论

暂无评论

热点资讯

DeepSeek模型横扫港大美股交易赛，年化回报率10.61%碾压全球AI对手

DeepSeek模型横扫港大美股交易赛，年化回报率10.61%碾压全球AI对手

美团LongCat-Video上线，5分钟长视频生成不再是梦！

美团LongCat-Video上线，5分钟长视频生成不再是梦！

MiniMax开源M2模型：AI编码与代理性能炸裂，成本直降92%

MiniMax开源M2模型：AI编码与代理性能炸裂，成本直降92%

中国科大与字节上线MoGA长视频生成模型，分钟级短片一键生成

中国科大与字节上线MoGA长视频生成模型，分钟级短片一键生成

火山引擎发布Seedance1.0pro fast，生成速度提升3倍，成本降低72%

火山引擎发布Seedance1.0pro fast，生成速度提升3倍，成本降低72%

分享

0

0

欢迎来到AI Top100！我们聚合全球500+款AI智能软件，提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台，让您轻松了解全球AI领域动态，并为您提供优质服务。

合作伙伴

联系我们

加入AITOP100社群

加入社群

AITOP100商务微信

商务微信

相关链接

服务及隐私政策