最近,MiniMax 又有大动作,推出了视频人工智能模型Hailuo02的第二代版本,这波升级在性能和价格上可都是诚意满满。
这新模型采用了噪声感知计算重分配(NCR)架构,MiniMax拍着胸脯说,这技术让训练和推理效率直接飙升了2.5倍。在处理长视频序列的时候,NCR架构那叫一个“聪明”,训练初期大量引入人工噪声,把视频使劲压缩;等视频清晰度上来了,就全分辨率处理。

和上一代比起来,Hailuo02的参数数量直接翻了三倍,训练数据量也涨了四倍,而且数据质量和多样性都更上一层楼。虽然具体参数数量和数据集规模没透露,但人家说了,在处理复杂提示和模拟物理过程方面,那进步可不是一星半点。MiniMax还特别骄傲地宣称,Hailuo02是目前唯一能精准生成复杂场景(像体操动作这种)的模型。

Hailuo02有三种变体供大家选择,分别是768p六秒视频、768p十秒视频以及1080p六秒视频。再看看之前的版本,就只支持 720p、六秒的视频,帧率还是25fps。在人工分析视频竞赛(Artificial Analysis Video Arena)基准测试里,Hailuo02在图像到视频类别中直接拿下第二名,把谷歌备受期待的Veo3都甩在了后面,仅次于字节跳动的Seedance。不过呢,Veo3目前不支持音频,这确实是个硬伤。
自去年八月发布以来,Hailuo平台已经创建了超过37亿个视频。MiniMax说一开始推广有点“随缘”,但很快就吸引了全球创作者的注意。用户可以通过网页界面、移动应用或者API来访问这个模型。要是用API,生成六秒的768p视频只要0.28美元,1080p版本也就 0.49 美元。而用谷歌Veo3生成一段八秒的1080p视频,可能得花3美元左右,具体还得看用户选的计划。
MiniMax表示,接下来还会努力提升生成速度和稳定性,再加点新功能,现在文本到视频和图像到视频的选项可不够看。相比之下,Runway等竞争平台已经推出了更先进的功能,比如跟踪镜头。
Hailuo02的发布是MiniMax周期间活动的一部分,期间还推出了开源语言模型MiniMax-M1,还附上了参数计数和技术论文。不过,关于Hailuo02训练架构的具体技术细节,目前还是个谜。







