字节跳动放大招:Seaweed视频生成模型来了!
各位小伙伴们,字节跳动Seed团队又搞了个大新闻!他们推出了全新的视频生成基础模型,名字也很接地气,叫做Seaweed海藻,是不是一听就感觉很亲切?(其实是“Seed-Video”的缩写,这波谐音梗玩得溜!)
这款Seaweed模型,厉害之处在于它仅有70亿参数,却能达到甚至超越那些140亿参数视频模型的效果! 简直就是小身材,大能量!
更让人惊喜的是,它能根据你输入的文字描述,自动生成各种分辨率(原生支持1280x720)、任意宽高比和时长的视频。想怎么玩,就怎么玩!
而且,训练Seaweed模型只花了665000 H100 GPU小时,要知道,同类型的模型通常需要超过百万GPU小时!这效率,杠杠的!相当于1000个H100跑了27.7天就搞定了。
更给力的是,中小团队也能轻松部署Seaweed, 只需要40GB显存的单GPU就能生成1280x720分辨率的视频。 妈妈再也不用担心我的显卡不够用了!
Seaweed的核心技能:想你所想,造你所见
作为一款基础模型,Seaweed的功能自然是相当全面。
像文章开头展示的那些小动物、风景视频,对它来说简直是小菜一碟。想生成什么,说句话就行!
它还支持图像生成,增强了控制功能,能对视频的首尾帧进行精细调节。想要视频开头结尾更精彩?没问题!
而且,Seaweed支持微调,可以根据你提供的“参考主体”图像生成视频,无论是单张还是多张,都能轻松转换成流畅的动态视频。简直就是把静态照片变成电影大片!
更酷的是,Seaweed还能结合字节跳动的多模态数字人方案Omnihuman, 只需要一张照片和一段音频,就能生成一段逼真的人物视频。人物的口型、肢体动作都能和音频完美同步,简直就像真人一样!
不仅如此,Seaweed还能用视频生成音频,让音频更贴合视频的场景和风格。视频需要配乐?Seaweed帮你搞定!
除了这些基础功能,Seaweed还结合了字节跳动以往的技术成果,带来了更多惊喜。
它可以生成长篇故事视频,你既可以提供整体的故事情节描述,也可以为每个镜头提供详细的文字描述。想拍一部属于自己的电影?Seaweed帮你圆梦!
这背后是“长上下文调优”和面向长篇叙述生成的“VideoAuteur”等技术的强大支撑。
- 高清画质
Seaweed不仅原生支持1280x720分辨率,还能进一步提升到2K(2560x1440)分辨率。 细节控们,这下满意了吧!
这得益于SeedVR技术,它基于Diffusion Transformer实现了通用的视频修复功能。
- 实时生成
Seaweed可以实时生成分辨率为1280x720、帧率为24fps的视频。 让你不再需要漫长的等待!
此外,Seaweed还支持“摄影机”控制生成和物理一致性生成,这背后有CameraCtrl II和SimDrop技术加持。
与其他模型对比情况。
图像到视频任务。
文本到视频的任务。
在单个H100 GPU运行中,Seaweed的响应速度是Wan-2.1(参数量是Seaweed的两倍)的62分之一。 这速度,简直是飞一般的感觉!
Seaweed的技术秘诀:低成本,高效益
Seaweed之所以如此强大,离不开其背后的技术创新。 他们的目标是在视频生成基础模型的训练上,实现低成本高效益。
他们选择训练一个中等规模的模型——约70亿个参数的DiT模型,使用665000个H100 GPU Hours从头开始训练该模型,相当于在1000个H100 GPU上训练27.7天。
主要从数据处理、模型架构设计以及训练策略和优化这三个方面入手。
数据处理:精益求精
他们拥有一套完整的数据处理流程,包括时间分割、空间裁剪、质量过滤、多视角数据平衡、重复数据删除和视频字幕等环节。
每个环节都力求做到最好。
比如在字幕任务中,他们发现使用更大的72B LLM可以减少幻觉。 但是,使用72B模型为海量视频生成字幕的计算成本太高。
于是,他们选择将72B模型作为教师模型,然后蒸馏出一个7B的学生模型,既节省了成本,又提高了准确率。 此外,他们还将详细字幕“推导”成简短字幕,类似于思维链过程,进一步提高了简短字幕的准确率——从84.81%到90.84%。
有了这套强大的数据处理系统,他们每天可以处理超过500000小时的视频数据。
模型架构设计:VAE + Diffusion Transformer
Seaweed的模型架构由64x压缩比 VAE与Diffusion Transformer结合而成。
VAE由编码器和解码器组成,编码器将原始像素数据压缩到一个紧凑的潜在空间,解码器则根据这些潜在特征重建原始输入像素。
这种设计为视频生成提供了两个优势:一是统一了图像和视频编码,使第一帧条件图像视频生成任务变得自然;二是消除了两个推断片段之间边界的闪烁,并允许编码和解码任意长的视频,而无需人工拼接。
在Diffusion Transformer方面,他们用图像和视频的原始分辨率和持续时间对它们进行混合训练。 为了平衡运行时的计算,较短的序列被打包在一起。
多阶段多任务学习训练策略:步步为营
他们采用了从低分辨率到高分辨率的多阶段渐进式训练策略。
在Pre-Training阶段,他们只通过低分辨率图像对模型进行预训练,这样就能建立文本摘要与常见视觉概念之间的对齐关系。
在Post-training阶段,他们会应用监督微调(SFT),然后是人类反馈强化学习(RLHF),以进一步提高输出结果的美学质量、动作一致性和结构连贯性。
这一阶段分别针对文本到视频和图像到视频任务进行。
此外,在Infra层面,他们还做了以下优化:采用并行策略在长语境视频中训练7B模型;引入了运行时平衡(Runtime Balance)策略,以减轻图像和视频联合训练过程中的负载不平衡;设计了多级激活检查点(MLAC),以减少GPU内存使用量和重新计算开销。
最后,他们还通过实施融合的CUDA内核来简化零散的I/O操作,从而优化GPU利用率。
因此,在大规模分布式训练中,Seaweed-7B的模型FLOPs利用率(MFU)达到了38%。
Seaweed背后的英雄团队
Seaweed的成功离不开其背后强大的研究团队。
这个团队由蒋路、冯佳时、杨振恒、杨建超领导。
其中蒋路是去年加入字节的前谷歌高级科学家,曾负责谷歌视频生成工作,在多个谷歌产品中做出了重要贡献,同时也是CMU兼职教授。
冯佳时则是首次曝光的“关键8人”之一,大模型视觉基础研究团队负责人,专注于计算机视觉、机器学习领域的相关研究及其在多媒体中的应用。
具体研究团队成员如下:
基础设施以及贡献者还有这些: