阶跃星辰联手吉利汽车开源Step系列多模态大模型，引领视频生成与语音技术新高度-AITOP100,AI资讯

阶跃星辰与吉利汽车集团联合开源Step系列多模态大模型

今日，人工智能领域迎来重要进展，阶跃星辰与吉利汽车集团共同宣布，联合开源两款具有里程碑意义的阶跃Step系列多模态大模型：Step-Video-T2V视频生成模型和Step-Audio语音模型。

Step-Video-T2V视频生成模型：参数量与性能全球领先

阶跃Step-Video-T2V视频生成模型以其卓越的性能和庞大的参数规模，在全球范围内处于领先地位。该模型拥有高达300亿的参数量，能够直接生成204帧、分辨率高达540P的高质量视频内容，确保生成内容的极高信息密度和卓越的一致性。

评测结果充分证明了Step-Video-T2V的强大实力，在指令遵循的精确性、运动画面的平滑度、物理规律的合理性以及整体的美感度等方面，均表现出极为出色的水平，其性能显著超越了目前市面上已有的开源视频模型。

Step-Video-T2V测试

目前，这两款强大的模型已全面上线至跃问App平台，诚邀广大开发者朋友们积极参与体验，并提供宝贵的反馈和建议，共同推动技术进步。

Step-Video-T2V：卓越的生成能力

阶跃Step-Video-T2V视频生成模型在处理复杂运动场景、生成美感人物以及展现视觉想象力方面，均展现出非凡的生成能力。它能够精准地理解用户指令，并高效地协助视频创作者将创意转化为现实。无论是优雅的芭蕾舞、激烈的空手道对抗、紧张的羽毛球比赛，还是令人惊叹的高速跳水动作，Step-Video-T2V都能生成真实且符合物理规律的精彩画面。

不仅如此，该模型还支持多种多样的镜头运动方式和景别切换，从而能够创造出具有大幅度运镜的震撼视觉效果。生成的人物形象也更加逼真、生动，细节之处更加丰富，表情也更加自然。

GitHub：https://github.com/stepfun-ai/Step-Audio

Hugging Face：https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

技术报告：https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html