快手今日正式宣布推出新一代视频生成模型可灵3.0系列(含图片3.0、视频3.0 及视频3.0 Omni),并开启超前内测。此次升级将单次视频生成时长拓展至最长15秒,并新增了智能分镜、极致细节一致性、音画同步及多语言口型等突破性能力,标志着 AI 视频生成从 “片段” 向 “叙事” 的重要迈进。

图片3.0:分辨率跃升与细节控制
可灵图片3.0 模型在画质精度与创作连贯性上进行了深度优化,旨在满足专业级的内容生产需求:
组图生成能力:支持通过单张或多张输入图像,批量生成逻辑连贯的系列画面,解决以往 AI 生成多图时风格与内容跳变的问题。
2K/4K 分辨率支持:输出分辨率提升至 2K 与 4K 级别,能够直接适配影视预演图(Pre-viz)与高精度的场景设定需求。
细节一致性优化:增强了画面细节的稳定性,针对纹理与光影呈现进行了算法优化,显著降低了图像的 “AI 塑料感”。
构图与视角控制:强化了对构图、景别及视角的控制精度,提升了其在影视类创作场景中的适用性。
视频3.0:智能分镜与多语口型同步
视频 3.0 采用了统一的多模态训练框架,支持文本、图像、视频片段等多种输入形式,核心升级聚焦于叙事能力的补全:
15秒长视频生成:单次生成时长最高可达 15 秒,并支持 3-15 秒的灵活时长设置,不仅增加了内容承载量,也为复杂动作的完整呈现提供了空间。
智能分镜系统:新增智能分镜能力,模型可根据文本指令自动调度景别(如特写、全景)与机位运动,模拟专业导演的镜头语言。
主体一致性控制:允许用户通过多张图片或视频片段 “锚定” 特定视觉元素,确保角色或物体在不同镜头间保持外观一致。
多语种音画同步:升级后的音画同步功能支持中、英、日、韩、西五种语言及方言的精准口型匹配,并能实现多人场景下的角色定向发声。
文字生成清晰度:大幅提升了视频内文字生成的清晰度,确保画面中的招牌、字幕等文字信息准确可辨。
核心技术:vCoT 与 Omni 主体库
此次升级背后依托多项底层技术创新。据官方介绍,可灵 3.0 采用了视觉思维链(vCoT)技术,在生成视频前先进行场景解构推理,提升逻辑合理性;同时通过 Deep-Stack 视觉信息流机制增强了细粒度感知能力。在模型训练中,引入了强化学习框架,结合 “真实感” 与 “电影质感” 双重标准优化输出。
此外,视频 3.0 Omni 版本推出了独特的 “视频主体特征库” 功能。用户可提取 3-8 秒视频中的角色形象与音色,建立专属特征库进行还原应用,这涉及了多模态指令解析架构优化及特征解耦重组方案的深度升级。
AITOP100小编总结
可灵 3.0 的发布并不只是单纯提升参数,而是更强调“一致性 + 控制力 + 多模态协同”的综合表现。从支持 4K 图片的预演到 15 秒长视频的生成,再到精确的口型同步,快手正试图构建一个从静态创意到动态叙事的工作流闭环。随着超前内测的推进,智能分镜与主体一致性等能力将成为检验其在影视预演与专业内容生产领域落地质量的关键试金石。
可灵AI工具体验: https://www.aitop100.cn/tools/detail/1900.html
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










