Waver
5658
0
0
Waver是由Foundation Vision团队开源的通用视频生成大模型,它把文本-视频(T2V)、图像-视频(I2V)、多机位叙事、长时长高分辨率生成等能力整合到同一套权重里,无需额外微调即可直接输出5 s / 10 s、720 p / 1080 p的成品视频。
工具标签:
直达网站
工具介绍

一、Waver是什么?
Waver是由Foundation Vision团队开源的「All-in-One」通用视频生成大模型,官方口号是 “Make your creativity groundbreaking”。它把文本-视频(T2V)、图像-视频(I2V)、多机位叙事、长时长高分辨率生成等能力整合到同一套权重里,无需额外微调即可直接输出5 s / 10 s、720 p / 1080 p的成品视频。
二、模型性能:
Artificial Analysis(2025-08-05 19:00 GMT+8)公开排行榜:Waver 1.0在运动质量、视觉质量、Prompt Following三项均位列第一,超越Runway Gen-4、Pika 2.0、Stable Video Diffusion等开源/闭源对手。
自建评测集
- Waver-Bench 1.0:覆盖 1200+ 组复杂动作、光影、风格化prompt。
- Hermes Motion-Testset:聚焦大规模人体与动物运动,人工盲评显示 Waver 领先第二名 18 %。
三、核心功能
文本-视频:
- 亮点:单句prompt 直接出片
- 示例效果:“雨中玻璃罐里微型世界”——雨滴、蘑菇咖啡馆、小人撑伞,细节全部对齐
图像-视频:
- 亮点:任意静图「活」起来
- 示例效果:把一张帆船照片变成半水下视角的10 s航行片段
多机位叙事:
- 亮点:原生支持镜头切换,角色/场景/光场一致
- 示例效果:老工匠完工:近景手部→特写眼睛→全景工作室→情绪收束,4镜一气呵成
长时长输出:
- 亮点:最长 10 s 连续片段,情感动作更完整
- 示例效果:企鹅百米冲刺:起跑、加速、撞线、减速,动作物理合理
高分辨率:
- 亮点:1080 p 原生,无需后超分
- 示例效果:城市夜景+烟花航拍,灯牌文字清晰可辨
多艺术风格:
- 亮点:写实、动漫、黏土、毛绒、赛博朋克、Wes Anderson 等一键切换
- 示例效果:王家卫复古滤镜+可口可乐机,胶片颗粒与霓虹光斑精准还原
运动皇冠:
- 亮点:人物/动物体育动作
- 示例效果:大熊猫花样滑冰、老虎高山滑雪、袋鼠拳击,关节轨迹真实
四、需求人群
- 创意工作室:广告片头、MV、概念 PV 快速预演。
- 自媒体 & MCN:低成本生成高质感短视频,批量起号。
- 影视动画:分镜预览、特效预合成、风格探索。
- 教育与培训:医学/体育/军事等需要人体动态演示的场景。
- 电商 & 零售:商品 360° 动态展示、虚拟试穿。
- 独立开发者:开源可商用,二次开发门槛低。
五、应用场景
- 广告创意:24K 金杏坠落慢动作 + 液体飞溅,一条 5 s 片头直接投放 TikTok Ads。
- 文旅宣传:输入一张古镇照片,生成“晨雾+花瓣雨+游船穿梭”的 10 s 竖屏短片。
- 动画分镜:导演一句“赛博曼谷飞狗出租车”,30 秒出 4 镜连贯故事板。
- 体育教学:生成“托马斯全旋”第一人称视角,配合骨骼标注用于动作拆解。
- 虚拟偶像:毛绒风格偶像在黏土世界开演唱会,跨次元联动。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Babel
Babel是阿里巴巴达摩院推出一款专为多语言处理而设计的开源大型语言模型。不仅支持全球使用人数最多的前 25 种语言,覆盖超 90% 的世界人口,它还将触角伸向了斯瓦希里语、爪哇语、缅甸语这类在开源大语言模型(LLM)领域鲜有人问津的语种。这一极具前瞻性的行动,势必将为数十亿以这些语言服务
Marble
Marble是由斯坦福大学教授、"AI教母"李飞飞创立的World Labs推出的全球首款商用多模态世界模型。作为生成式AI领域的革命性产品,Marble突破了传统3D建模的技术边界,通过文本、图像、视频甚至3D草图等多种输入方式,可实时生成具备物理规则的持久性3D环境。
Baichuan-NPC
Baichuan-NPC 是百川智能最新推出百川角色大模型,它通过深度优化角色知识库和对话引擎,赋予了游戏角色更加生动和真实的对话与行为表现。Baichuan-NPC 不仅能够理解复杂的上下文信息,还能根据角色性格进行自然而富有个性的互动,让游戏世界中的角色仿佛有了生命。
模力指数GEO
模力指数GEO是一款面向大模型时代的品牌监测产品,通过持续分析主流AI模型中的数据,从提及度、认知准确度、推荐度、情感倾向和竞争对比五个维度,量化品牌在生成式AI环境中的认知表现。该产品提供定制看板、趋势洞察与竞品分析,帮助企业发现AI语境下的认知盲区与风险,为品牌优化提供数据支持.
Flex.2-preview
Flex.2-preview是由Ostris团队发布的一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。该模型在Hugging Face上开源,采用Apache2.0许可证,凭借其强大的控制能力与高效生成特性,迅速成为AI艺术创作社区的焦点。
n1n.ai
n1n - 大模型API企业级聚合平台拥有 500+顶尖国内外AI大模型,价格低至1折,帮您节省最多90%的成本!它致力于解决大模型应用开发中的碎片化难题,提供统一的AI API网关,只需一个API Key即可连接GPT-5、Claude 4.5、Gemini 3 Pro等顶尖模型。
Gemma 3
Gemma-3是谷歌最新开源的多模态大模型,主打低成本高性能。该模型共有1B(10亿)、4B(40亿)、12B(120亿)和27B(270亿)四种参数规模,即便最大的27B参数模型,也只需要一张Nvidia H100显卡就能高效推理。相比同类模型,Gemma-3在达到相同效果时,算力需求降低了10倍
DeepCoder-14B-Preview
DeepCoder-14B-Preview是一款专为编码推理设计的生成式AI模型。它是在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调而成。该模型不仅性能卓越,而且开源内容丰富,为开发者提供了深入理解和研究模型开发流程的机会。
0
0






