• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

字节跳动海藻Seaweed:70亿参数打造超强视频生成模型,中小团队也能玩转!

字节跳动海藻Seaweed:70亿参数打造超强视频生成模型,中小团队也能玩转!
AI TOP100

字节跳动放大招:Seaweed视频生成模型来了!

各位小伙伴们,字节跳动Seed团队又搞了个大新闻!他们推出了全新的视频生成基础模型,名字也很接地气,叫做Seaweed海藻,是不是一听就感觉很亲切?(其实是“Seed-Video”的缩写,这波谐音梗玩得溜!)

这款Seaweed模型,厉害之处在于它仅有70亿参数,却能达到甚至超越那些140亿参数视频模型的效果! 简直就是小身材,大能量!

更让人惊喜的是,它能根据你输入的文字描述,自动生成各种分辨率(原生支持1280x720)、任意宽高比和时长的视频。想怎么玩,就怎么玩!

而且,训练Seaweed模型只花了665000 H100 GPU小时,要知道,同类型的模型通常需要超过百万GPU小时!这效率,杠杠的!相当于1000个H100跑了27.7天就搞定了。

更给力的是,中小团队也能轻松部署Seaweed, 只需要40GB显存的单GPU就能生成1280x720分辨率的视频。 妈妈再也不用担心我的显卡不够用了!

Seaweed的核心技能:想你所想,造你所见

作为一款基础模型,Seaweed的功能自然是相当全面。

像文章开头展示的那些小动物、风景视频,对它来说简直是小菜一碟。想生成什么,说句话就行!

它还支持图像生成,增强了控制功能,能对视频的首尾帧进行精细调节。想要视频开头结尾更精彩?没问题!

而且,Seaweed支持微调,可以根据你提供的“参考主体”图像生成视频,无论是单张还是多张,都能轻松转换成流畅的动态视频。简直就是把静态照片变成电影大片!

更酷的是,Seaweed还能结合字节跳动的多模态数字人方案Omnihuman, 只需要一张照片和一段音频,就能生成一段逼真的人物视频。人物的口型、肢体动作都能和音频完美同步,简直就像真人一样!

不仅如此,Seaweed还能用视频生成音频,让音频更贴合视频的场景和风格。视频需要配乐?Seaweed帮你搞定!

除了这些基础功能,Seaweed还结合了字节跳动以往的技术成果,带来了更多惊喜。

它可以生成长篇故事视频,你既可以提供整体的故事情节描述,也可以为每个镜头提供详细的文字描述。想拍一部属于自己的电影?Seaweed帮你圆梦!

这背后是“长上下文调优”和面向长篇叙述生成的“VideoAuteur”等技术的强大支撑。

  • 高清画质

Seaweed不仅原生支持1280x720分辨率,还能进一步提升到2K(2560x1440)分辨率。 细节控们,这下满意了吧!

这得益于SeedVR技术,它基于Diffusion Transformer实现了通用的视频修复功能。

  • 实时生成

Seaweed可以实时生成分辨率为1280x720、帧率为24fps的视频。 让你不再需要漫长的等待!

此外,Seaweed还支持“摄影机”控制生成和物理一致性生成,这背后有CameraCtrl II和SimDrop技术加持。

与其他模型对比情况。

图像到视频任务。

文本到视频的任务。

在单个H100 GPU运行中,Seaweed的响应速度是Wan-2.1(参数量是Seaweed的两倍)的62分之一。 这速度,简直是飞一般的感觉!

Seaweed的技术秘诀:低成本,高效益

Seaweed之所以如此强大,离不开其背后的技术创新。 他们的目标是在视频生成基础模型的训练上,实现低成本高效益。

他们选择训练一个中等规模的模型——约70亿个参数的DiT模型,使用665000个H100 GPU Hours从头开始训练该模型,相当于在1000个H100 GPU上训练27.7天。

主要从数据处理、模型架构设计以及训练策略和优化这三个方面入手。

数据处理:精益求精

他们拥有一套完整的数据处理流程,包括时间分割、空间裁剪、质量过滤、多视角数据平衡、重复数据删除和视频字幕等环节。

每个环节都力求做到最好。

比如在字幕任务中,他们发现使用更大的72B LLM可以减少幻觉。 但是,使用72B模型为海量视频生成字幕的计算成本太高。

于是,他们选择将72B模型作为教师模型,然后蒸馏出一个7B的学生模型,既节省了成本,又提高了准确率。 此外,他们还将详细字幕“推导”成简短字幕,类似于思维链过程,进一步提高了简短字幕的准确率——从84.81%到90.84%。

有了这套强大的数据处理系统,他们每天可以处理超过500000小时的视频数据。

模型架构设计:VAE + Diffusion Transformer

Seaweed的模型架构由64x压缩比 VAE与Diffusion Transformer结合而成。

VAE由编码器和解码器组成,编码器将原始像素数据压缩到一个紧凑的潜在空间,解码器则根据这些潜在特征重建原始输入像素。

这种设计为视频生成提供了两个优势:一是统一了图像和视频编码,使第一帧条件图像视频生成任务变得自然;二是消除了两个推断片段之间边界的闪烁,并允许编码和解码任意长的视频,而无需人工拼接。

在Diffusion Transformer方面,他们用图像和视频的原始分辨率和持续时间对它们进行混合训练。 为了平衡运行时的计算,较短的序列被打包在一起。

多阶段多任务学习训练策略:步步为营

他们采用了从低分辨率到高分辨率的多阶段渐进式训练策略。

在Pre-Training阶段,他们只通过低分辨率图像对模型进行预训练,这样就能建立文本摘要与常见视觉概念之间的对齐关系。

在Post-training阶段,他们会应用监督微调(SFT),然后是人类反馈强化学习(RLHF),以进一步提高输出结果的美学质量、动作一致性和结构连贯性。

这一阶段分别针对文本到视频和图像到视频任务进行。

此外,在Infra层面,他们还做了以下优化:采用并行策略在长语境视频中训练7B模型;引入了运行时平衡(Runtime Balance)策略,以减轻图像和视频联合训练过程中的负载不平衡;设计了多级激活检查点(MLAC),以减少GPU内存使用量和重新计算开销。

最后,他们还通过实施融合的CUDA内核来简化零散的I/O操作,从而优化GPU利用率。

因此,在大规模分布式训练中,Seaweed-7B的模型FLOPs利用率(MFU)达到了38%。

Seaweed背后的英雄团队

Seaweed的成功离不开其背后强大的研究团队。

这个团队由蒋路、冯佳时、杨振恒、杨建超领导。

其中蒋路是去年加入字节的前谷歌高级科学家,曾负责谷歌视频生成工作,在多个谷歌产品中做出了重要贡献,同时也是CMU兼职教授。

冯佳时则是首次曝光的“关键8人”之一,大模型视觉基础研究团队负责人,专注于计算机视觉、机器学习领域的相关研究及其在多媒体中的应用。

具体研究团队成员如下:

基础设施以及贡献者还有这些:

0
0
文章来源:AI TOP100
原文链接:https://36kr.com/p/3251000798847233
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 每日AI资讯-2025年07月30日

  • AI短片大赛|一次充值通吃所有AI工具!AITOP100霸榜计划狂撒万元奖金!

  • AITOP100-AI小说创作季首期启动!现金奖励+工具权益等你来拿!

  • Luma AI Dream Machine“指令修改”来袭,视频创作要变天啦!

  • AIGC大赛:“元创杯”全国AI音乐视频创作大赛火热开启

热点资讯

豆包AI生图技术深度解析:引领中文图像生成新突破

5天前
豆包AI生图技术深度解析:引领中文图像生成新突破

阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

4天前
阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

8天前
Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

6天前
YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破

2天前
创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有