阶跃星辰发布Step-Video-TI2V图生视频模型
上海阶跃星辰智能科技有限公司正式宣布,开源其图生视频模型Step-Video-TI2V。此模型建立于30B参数的Step-Video-T2V之上,能够创作出102帧、时长5秒、分辨率达540P的视频内容。其核心优势在于对运动幅度和镜头运动的精确控制,尤其在生成动漫风格的视频时表现突出。相较于其他已开源的图生视频模型,Step-Video-TI2V不仅拥有更大的参数规模,其运动幅度可控功能还能在视频动态感与稳定性之间取得平衡,为创作者带来更大的创作空间。
Step-Video-TI2V关键技术与优化
在Step-Video-TI2V的研发过程中,研发团队实施了两项关键优化措施。首先,引入图像条件以增强生成视频与原始图像之间的一致性。不同于传统的cross-attention机制,该模型采用了一种更为直接的方法,将图像的向量表示与DiT首帧的向量表示在channel维度上进行拼接,从而确保生成视频与输入图像的高度相似。其次,通过AdaLN模块整合视频动态性评分信息,允许用户在生成视频时自定义运动级别,精确地控制视频的动态幅度,从而在动态性、稳定性和一致性之间达到理想的平衡。此外,研发团队还对主体动作和镜头运动进行了专门的精确标注,进一步提升了模型在主体动态和运镜效果方面的表现。
Step-Video-TI2V的核心优势
Step-Video-TI2V的主要特点包括:运动幅度可调节、丰富的运镜控制选项、出色的动漫效果,以及对多种尺寸的支持。用户可以根据创作需求,在动态与静态画面之间自由切换,创作出从基础的推拉摇移、升降到复杂的电影级运镜效果的视频。该模型在动漫创作领域表现尤为出色,非常适合动画制作和短视频内容生产等应用场景。同时,它支持多种尺寸的图生视频,无论是横屏、竖屏还是方形画面,都能很好地适应不同平台的需求。