6月22日,由Swin Transformer共同作者曹越创立的AI视频生成公司Sand.ai,宣布3个月内连续完成两轮融资合计超1亿美元,将自回归视频生成路线从学术争议推向资本主赛道。
事件概述
2026年6月22日,由Swin Transformer共同作者曹越创立的AI视频生成公司Sand.ai,宣布3个月内连续完成两轮融资,合计金额超过1亿美元。投资阵容涵盖15家以上一线机构——源码资本(老股东持续加注)、经纬创投、创新工场、IDG、今日资本、百度风投、Lollapalooza Capital(王慧文家办)、九坤创投等联合投资,星涵资本担任财务顾问。
公司核心产品Magi-1自回归视频世界模型在Google-DeepMind Physics-IQ物理真实性榜单取得绝对领先,超越Nvidia cosmos3-super与Sora2;
旗下VidMuse上线仅2个月即实现ARR突破千万美元,成为Video Agent赛道最快达成该里程碑的产品。公司同步宣布将于2026年Q3开源新一代MoE架构视频生成模型。
核心看点
1. 自回归路线获资本定论
当行业主流押注Diffusion架构时,Sand.ai率先将研究重心转向自回归,曹越判断"视频不是像素生成问题,而是对时空和物理规律的压缩问题"。Physics-IQ榜单实测数据证明,自回归架构在物理行为预测精度上远优于纯Diffusion方案——这一技术路线之争,由资本超亿美元投票给出阶段性结论。
2. 15家一线机构密集押注
源码资本从2024年种子轮领投到本轮持续追加,经纬创投、创新工场、IDG、今日资本、百度风投等一线机构首次集体入局,王慧文家办Lollapalooza Capital现身投资名单——AI视频生成赛道头部玩家身份由此确立。
3. VidMuse 2个月ARR破千万美元
产品负责人张子贺(剪映PC端0到1产品策略负责人)主导的VidMuse,首创"Music in Video Out"音频驱动视频创作模式,上线2个月即突破千万美元ARR,成为Video Agent赛道商业化速度最快的案例,验证了从模型技术到产品收入的完整闭环。
4. Q3开源新一代MoE模型
曹越公开表态"有信心做到头部水准,并且要把它开源给所有人"。新一代模型采用MoE架构+全新routing机制+single-stream统一架构,将文本、图像、视频、声音统一映射为Token序列——这将是开源领域参数规模最大、推理效率最高的视频生成模型,直接冲击当前开源视频模型格局。
5. 抖音创始团队成员入局运营
运营增长负责人王佳为抖音创始团队七人之一、抖音0到1运营总监,曾任Minimax C端运营负责人——字节系核心运营人才的加入,为Sand.ai的C端产品爆发提供了实战经验保障。
行业背景
2026年上半年,AI视频生成赛道进入白热化竞争阶段。
海外方面,OpenAI Sora2、Google Veo3、Meta MovieGen持续迭代;
国内方面,快手可灵、生数科技Vidu、智谱CogVideoX等玩家密集推新。
与此同时,Diffusion架构与自回归架构的技术路线之争从学术层面延伸至产业层面——Diffusion在画面质量与生成效率上有成熟优势,但自回归在实时交互、长期预测与物理理解上展现更大潜力。
Sand.ai的Physics-IQ榜单领先与超亿美元融资,标志着自回归路线首次在产业验证与资本认可上取得双重突破。
此外,AI视频生成正从"内容工具"向"世界模型基础设施"演进——曹越认为"视频生成并不是世界模型的终点,只是通往那个终局过程中最重要的一座加油站",这一认知正在获得越来越多研究者的共鸣。
专家/官方引述
曹越(Sand.ai创始人,Swin Transformer共同作者,ICCV 2021最佳论文奖获得者): "视频不是像素生成问题,而是对时空和物理规律的压缩问题。真正该预测的不是任何human-defined的状态,而是世界唯一免费给你、且自带监督信号的东西——观测本身(observation)。正如next-token prediction之于推理是最终胜出的路,next-frame prediction之于具身也会是同一条路:拒绝在观测之上再架一层人造的状态,让模型自己优化。"
曹越(Sand.ai创始人): "有信心做到头部水准,并且要把它开源给所有人。"
张拯(Sand.ai算法负责人,Swin Transformer核心作者,ICCV 2021最佳论文奖获得者): 作为MoE架构与single-stream统一架构的核心研发者,张拯的技术路线选择印证了曹越"直接建模raw data来构建世界模型"的Scalable路线判断。
王佳(Sand.ai运营增长负责人,抖音创始团队七人之一): 抖音0到1的实战运营经验为Sand.ai的VidMuse产品爆发提供了方法论支撑。
影响分析
对行业: 自回归视频生成路线首次获得15家一线机构超亿美元集体背书,将推动更多团队从Diffusion转向自回归研究,加速AI视频生成从"画面质量竞赛"向"物理理解与实时交互竞赛"的范式转移。Q3开源MoE模型将进一步降低行业技术门槛,催生基于自回归架构的二次创新生态。
对用户: VidMuse"Music in Video Out"模式验证了音频驱动视频创作的C端需求,MoE架构的推理效率提升将直接降低用户使用成本。开源模型发布后,个人开发者与中小企业将获得与头部玩家同等的技术起点。
对市场: Sand.ai融资阵容中源码资本持续加注+百度风投首次入局的组合,暗示AI视频生成赛道正从"单点技术验证"向"平台级生态布局"跃迁。王慧文家办与宿华等快手系/字节系背景投资人的出现,表明短视频与直播平台对AI视频生成工具的战略需求正在从"功能补充"升级为"核心基建"。ARR千万美元的商业化验证也为整个Video Agent赛道注入信心——从技术到收入的完整闭环不再是假设。
对竞争格局: 在OpenAI Sora2与Google Veo3主导海外市场、快手可灵与生数Vidu占据国内Diffusion阵营的格局下,Sand.ai以自回归路线+开源策略+千万美元ARR的差异化定位,开辟了第三条赛道——这迫使所有玩家在"闭源Diffusion"之外正视"开源自回归"的竞争维度。
信息来源
- 据[腾讯新闻]6月22日消息,Sand.ai连续完成2轮融资合计超1亿美元
- 据[36氪]6月22日快讯,投资方涵盖15+一线机构联合投资
- 据[网易科技]6月22日报道,Sand.ai Q3将开源新一代MoE架构视频生成模型
- 据[36氪]4月7日独家报道,VidMuse上线2个月ARR突破千万美元
- 据[Physics-IQ Benchmark官方数据],Magi-1在物理真实性榜单取得绝对领先
- 据[Sand.ai官方技术博客],MoE架构+single-stream统一架构技术路线详解
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










