Waver
6207
0
0
Waver是由Foundation Vision团队开源的通用视频生成大模型,它把文本-视频(T2V)、图像-视频(I2V)、多机位叙事、长时长高分辨率生成等能力整合到同一套权重里,无需额外微调即可直接输出5 s / 10 s、720 p / 1080 p的成品视频。
工具标签:
直达网站
工具介绍

一、Waver是什么?
Waver是由Foundation Vision团队开源的「All-in-One」通用视频生成大模型,官方口号是 “Make your creativity groundbreaking”。它把文本-视频(T2V)、图像-视频(I2V)、多机位叙事、长时长高分辨率生成等能力整合到同一套权重里,无需额外微调即可直接输出5 s / 10 s、720 p / 1080 p的成品视频。
二、模型性能:
Artificial Analysis(2025-08-05 19:00 GMT+8)公开排行榜:Waver 1.0在运动质量、视觉质量、Prompt Following三项均位列第一,超越Runway Gen-4、Pika 2.0、Stable Video Diffusion等开源/闭源对手。
自建评测集
- Waver-Bench 1.0:覆盖 1200+ 组复杂动作、光影、风格化prompt。
- Hermes Motion-Testset:聚焦大规模人体与动物运动,人工盲评显示 Waver 领先第二名 18 %。
三、核心功能
文本-视频:
- 亮点:单句prompt 直接出片
- 示例效果:“雨中玻璃罐里微型世界”——雨滴、蘑菇咖啡馆、小人撑伞,细节全部对齐
图像-视频:
- 亮点:任意静图「活」起来
- 示例效果:把一张帆船照片变成半水下视角的10 s航行片段
多机位叙事:
- 亮点:原生支持镜头切换,角色/场景/光场一致
- 示例效果:老工匠完工:近景手部→特写眼睛→全景工作室→情绪收束,4镜一气呵成
长时长输出:
- 亮点:最长 10 s 连续片段,情感动作更完整
- 示例效果:企鹅百米冲刺:起跑、加速、撞线、减速,动作物理合理
高分辨率:
- 亮点:1080 p 原生,无需后超分
- 示例效果:城市夜景+烟花航拍,灯牌文字清晰可辨
多艺术风格:
- 亮点:写实、动漫、黏土、毛绒、赛博朋克、Wes Anderson 等一键切换
- 示例效果:王家卫复古滤镜+可口可乐机,胶片颗粒与霓虹光斑精准还原
运动皇冠:
- 亮点:人物/动物体育动作
- 示例效果:大熊猫花样滑冰、老虎高山滑雪、袋鼠拳击,关节轨迹真实
四、需求人群
- 创意工作室:广告片头、MV、概念 PV 快速预演。
- 自媒体 & MCN:低成本生成高质感短视频,批量起号。
- 影视动画:分镜预览、特效预合成、风格探索。
- 教育与培训:医学/体育/军事等需要人体动态演示的场景。
- 电商 & 零售:商品 360° 动态展示、虚拟试穿。
- 独立开发者:开源可商用,二次开发门槛低。
五、应用场景
- 广告创意:24K 金杏坠落慢动作 + 液体飞溅,一条 5 s 片头直接投放 TikTok Ads。
- 文旅宣传:输入一张古镇照片,生成“晨雾+花瓣雨+游船穿梭”的 10 s 竖屏短片。
- 动画分镜:导演一句“赛博曼谷飞狗出租车”,30 秒出 4 镜连贯故事板。
- 体育教学:生成“托马斯全旋”第一人称视角,配合骨骼标注用于动作拆解。
- 虚拟偶像:毛绒风格偶像在黏土世界开演唱会,跨次元联动。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

MAI-DS-R1
MAI-DS-R1是微软在DeepSeek-R1基础上进行魔改后推出的全新开源模型。它继承了DeepSeek-R1的推理性能,同时在响应敏感话题和降低安全风险方面进行了大幅度增强。这一模型旨在为用户提供更加智能、安全、多语言的AI交互体验。
CogView4
CogView4是智谱AI推出的开源中文文生图模型。CogView4 的参数规模精准布局至 6 亿,这一参数规模,为模型构建了一个庞大且高效的 “智慧中枢”,赋予其极为强大的运算和学习能力。还全面支持中文输入和中文文本到图像的生成,被称其为“首个能在画面中生成汉字的开源模型”
方糖大模型
方糖大模型是像素蛋糕自主研发的AI影像生成与处理系统,专为商业摄影、广告营销、影视制作、游戏开发等场景设计。其核心优势在于通过百亿级参数规模与多尺度分层蒸馏技术,实现高效、高质量的图像生成与编辑,同时符合国家政策对安全性和规范性的严格要求。
面壁露卡
「面壁露卡 Luca」是面壁智能基于自研千亿参数基座模型 CPM 打造的多模态智能对话助手。
Amazon Bedrock
Amazon Bedrock是亚马逊云科技推出的全球最大AI模型平台,属于完全托管服务。它就像一个“AI模型超市”,通过单个API,把AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI和亚马逊自家等领先人工智能公司的高性能基础模型汇聚在一起
Babel
Babel是阿里巴巴达摩院推出一款专为多语言处理而设计的开源大型语言模型。不仅支持全球使用人数最多的前 25 种语言,覆盖超 90% 的世界人口,它还将触角伸向了斯瓦希里语、爪哇语、缅甸语这类在开源大语言模型(LLM)领域鲜有人问津的语种。这一极具前瞻性的行动,势必将为数十亿以这些语言服务
Video-XL-2
Video-XL-2是智源研究院联合上海交通大学等机构于2025年6月发布的超长视频理解模型,其核心突破在于单张显卡即可处理万帧级视频输入(约1小时时长的30FPS视频),同时保持轻量化设计(参数规模远低于720亿参数的闭源模型)。
MNN
MNN(Mobile Neural Network) 是一个专为移动端和边缘设备优化的高性能推理引擎,支持多种深度学习模型的本地化部署。其最新推出的MnnLlmApp是基于MNN框架的移动端多模态大模型应用,通过集成Qwen-2.5-Omni系列模型,首次实现了文本、图像、音频、视频的跨模态交互能力
0
0






