关于可灵:可灵(Kling)是由快手大模型团队自研打造的视频生成大模型,现已支持文生视频、图生视频、视频续写、运镜控制、首尾帧等多个能力,让用户轻松高效地完成艺术视频创作
指南大纲
各位可灵的创作者朋友们,首先感谢大家对可灵的喜欢!为了让大家更好地通过提示词(prompt)来驯服可灵大模型,写出更好的可灵咒语,我们将以下指南给创作者朋友们参考。当然,随着模型的持续迭代和对模型的不断探索,这份指南也会持续更新,我们希望与各位创作者朋友们共同完善,如果有发现更好用的模型小妙招,欢迎大家联系我们:kling@kuaishou.com,被采纳后我们会有额外的灵感值激励哦~让我们一起沉淀更好的「可灵」驯服指南,帮助大家创作更多更好的优质作品。
一、基础功能
文生视频
输入一段文字,可灵大模型根据文本表达生成5s或10s视频,将文字转变为视频画面。现已支持“标准”与“高品质”两个生成模式,标准模式生成速度更快,高品质模式画面质量更佳;「可灵」同时支持16:9,9:16与1:1三种画幅比例,更多元满足大家的视频创作需求。
我们知道,“Prompt作为文生视频大模型最主要的交互语言,将直接决定了模型返回的视频内容,因此,如何使用有效Prompt来完成Al视频创作是每个创作者都希望了解和学习的,「可灵」作为AI视频大模型2.0的新生命,仍然在不断迭代与更新,我们需要持续探索,发挥可灵的潜力,这样才能更好地玩转可灵,玩转AI视频。
我们给大家准备了可灵提示词公式,可供参考:
以上公式最核心的构成就是主体、运动和场景,这也是描述一个视频画面最简单、最基本的单元。当我们希望更细节地描述主体与场景时,只需要通过列举多个描述词短句,保持Prompt中希望出现要素的完整性即可,「可灵」会根据我们的表达进行提示词扩写,生成符合预期的视频。
如“一只大熊猫在咖啡厅里看书”,我们可以增加主体和场景的细节描述“一只大熊猫戴着黑框眼镜在咖啡厅看书,书本放在桌子上,桌子上还有一杯咖啡,冒着热气,旁边是咖啡厅的窗户”,这样可灵生成的画面会更具体可控,如果想要增加一些镜头语言和光影氛围,我们也可以尝试“镜头中景拍摄,背景虚化,氛围光照,一只大熊猫戴着黑框眼镜在咖啡厅看书,书本放在桌子上,桌子上还有一杯咖啡,冒着热气,旁边是咖啡厅的窗户,电影级调色”,这样生成的视频质感会进一步提升,有可能会得到超出预期的结果。
公式的意义旨在帮助大家更好地描述想要的视频画面,我们同样可以尽情发挥想象力,不被公式限制,去自由大胆地与「可灵」交流,可能会有更加惊喜的结果!这里有一些来源于创作者分享的优质案例,一起来看看~
一些使用小技巧
- 尽量使用简单词语和句子结构,避免使用过于复杂的语言;
- 画面内容尽可能简单,可以在5s到10s内完成;
- 用“东方意境、中国、亚洲”等词语更容易生成中国风和中国人;
- 当前视频大模型对数字还不敏感,比如“10个小狗在海滩上”,数量很难保持一致;
- 分屏场景,可以使用prompt:“4个机位,春夏秋冬”;
- 现阶段较难生成复杂的物理运动,比如球类的弹跳、高空抛物等;
- (持续更新中,欢迎补充)
图生视频
输入一张图片,可灵大模型根据图片理解生成5s或10s视频,将图片转变为视频画面;输入一张图片加文本描述,可灵大模型根据文本表达将图片生成一段视频。现已支持“标准”与“高品质”两个生成模式,以及16:9,9:16与1:1三种画幅比例,更多元满足大家的视频创作需求。
图生视频是当前创作者使用频率最高的功能,这是因为从视频创作角度来看,图生视频更可控,创作者可以用提前抽卡生成好的图片进行动态视频生成,极大降低了专业视频的创作成本与门槛;而从视频创意角度来看,「可灵」为大家提供了另外一种创意平台,用户可以通过文本来控制图片中的主体进行运动,如最近网上爆火的“老照片复活”、“与小时候的自己拥抱”,以及被网友调侃为「吃菌子幻觉视频」的“蘑菇变企鹅”等,体现出[可灵」作为一个创意工具的属性,给用户的创意实现提供了无限可能。对图生视频来说,控制图像中的主体运动是核心.
我们为大家提供了以下公式,可供参考:
以上公式最核心的构成是主体和运动,与文生视频不同,图生视频已经有了场景,因此只需要描述图像中的主体与希望主体实现的运动,如果涉及多个主体的多个运动,依次列举即可,「可灵」会根据我们的表达与对图像画面的理解进行提示词扩写,生成符合预期的视频。
如果想要“让画中的蒙娜丽莎戴上墨镜”,当我们只输入“戴墨镜”时,模型较难理解指令,因此更可能通过自己的判断进行视频生成,当「可灵」判断这是一幅画时,会更可能生成具有运镜的效果的画幅展览,这也是照片类的图片容易生成静止不动视频的原因(不要上传带有相框的图片)。
因此,我们需要通过描述“主体+运动”来让模型理解指令,如“蒙娜丽莎用手戴上墨镜”,或者对于多主体“蒙娜丽莎用手戴上墨镜,背景出现一道光”,模型会更容易响应。
—些tips
- 尽量使用简单词语和句子结构,避免使用过于复杂的语言;
- 运动符合物理规律,尽量用图片中可能发生的运动描述;
- 描述与图片相差较大,可能会引起镜头切换;
- 现阶段较难生成复杂的物理运动,比如球类的弹跳、高空抛物等;
- (持续更新中,欢迎补充)
多图参考
可灵AI1.6模型,为大家带来了全新的[多图参考|能力。在现有的1.6模型图生视频的下,「多图参考」支持你上传最多四张参考图片,图片的内容可以是人物、动物、场景、服饰等各种主体或背景图片。此外,你还需编写一段文字,来描述这些主体/背景之间的互动,或者描述更多细节,将图片素材融合在一起,生成出一段创意视频。
相较于文生视频,「多图参考」可以生成更加可控的AI创意视频,在视频中融入任何你希望固定的主体元素或者背景画面。此外,相较于图生视频的「首尾帧」功能,「多图参考」能够让你更灵活的生成视频,让主体不再拘泥于首/尾帧图片的画面。你可以把主体放在任何场景下,更可以让主体间加入各种互动,解锁全新的视频创作方式!
如何使用「多图参考」
步骤一:
- 上传图片((1~4张):
- 本地上传
- 通过[历史创作」选择你在「可图」生成的历史图片素材利用可图创作视频主体的图片后,再通过[历史创作」上传
步骤二:框选主体(可选)
如果你上传的图片中包含过多元素,而你只希望可灵AI参考图中特定的主体,那么我们强烈建议你使用此功能,精准框选出你希望可灵Al参考的部分。
步骤三:撰写创意描述
用一段话来描述你希望参考的(一个/或多个)主体,生成出一段什么效果的AI创意视频。具体如何通过撰写更好的「创意描述」来生成更符合你预期的AI视频。
步骤四:选择参数
●模式:「标准模式」生成720p视频,速度更快;「高品质」模式生成1080p视频,效果更佳
●比例:你希望生成出来的视频是什么比例,可灵AI提供「16:9」、「9:16」、「1:1」三种比例
备注:参考图片的比例,不影响最终生成视频的比例
●生成时长:可灵Al生成的视频长度,提供5秒/10秒两种长度
●生成数量:你希望可灵Al一次性生成几条视频,支持单次生成1-4条负向词(可选):写下你不希望可灵AI在生成的视频中出现的
内容。
此外,你可以通过点击「上传图片」栏下方的推荐示例(如下图所示位置),来获取一些示例玩法。点击右侧的「旋转」按钮以获取更多示例内容。
「多图参考」灵感值花费计算规则
- 在生成视频按钮的样式中,会详细注明本次生成视频会消耗多少灵感值。此处将给出灵感值消耗的详细计算规则,供大家参考。
例如:生成2条,10秒的高品质画质的「多图参考」视频需要消耗:35X2倍(10秒)X2(2条视频)=140灵感值
「多图参考」适合哪些场景
- 在「多图参考」功能中,你可以基于不同类型和数量的主体进行创作。在以下场景中,「多图参考」可以比较好的发挥功能特点和优势,供大
家参考:
- 前景角色及动作+背景环境(比如一个角色在一个地方走路)
- 角色+服装+产品的展示
- 多角色「同框」互动
- 动漫二创
以下,我们按照主体数量作为分类标准,分别给出这几个适用场景的示例:
单主体(单个人物/动物/物体)
多主体(多个人物/动物/物体)
「多图参考」进阶技巧
1如何撰写更好的创意描述
单主体(单个人物/动物/物体)
多主体(多个人物/动物/物体)
视频延长
对AI生成后的视频可续写4~5秒,支持多次续写(最长3分钟),可通过微调提示词进行视频续写创作。
视频延长功能位于视频生成后左下角Tab,有“自动延长”与“自定义创意延长”两种模式,“自动延长”是指无需输入Prompt,模型根据对视频本身的理解进行视频续写,“自定义创意延长”是用户可以通过文本控制延长后的视频,这里Prompt需要与原视频相关,写明原视频的“主体+运动”,才能尽量实现延长后的视频不崩坏.
我们为大家提供了以下公式,可供参考:
—些tips
视频“自定义创意延长”里Prompt需要与原视频主体保持一致,不相关的文本可能会引起镜头切换;
延长具有一定概率,可能需要多次延长才能生成符合预期的视频;
(持续更新中,欢迎补充)
进阶功能
标准模式与高品质模式
「标准模式」是视频生成速度更快、推理成本更低的模型,可以通过标准模式快速验证模型效果,满足用户创意实现需求;「高品质模式」是视频生成细节更丰富、推理成本更高的模型,可以通过高品质模式生成高质量视频,满足创作者高阶作品需求。
对于标准模式和高品质模式,分别有以下优势,我们可以根据实际情况选择模型生成:
- 标准模式:视频生成速度快,推理成本更低。擅长生成人像、动物、以及动态幅度较大的场景,生成的动物更亲切,画面调色柔和,也是可灵刚发布时就获得好评的一款模型;
- 高品质模式:视频生成细节更丰富,推理成本更高。擅长生成人像、动物、建筑、风景类等视频,细节更丰富,构图与色调氛围更高级,是可灵现阶段对于精细视频创作使用最多的一款模型。
运镜控制
可灵1.0模型文生视频和可灵1.5的图生视频的高品质模式,均支持运镜控制,现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”6个基本运镜。可灵1.0模型文生视频,还额外支持“左旋推进、右旋推进、推进上移、下移拉远”4个大师运镜,帮助创作者生成具有明显运镜效果的视频画面。
运镜控制属于镜头语言的一种,为了满足视频创作的多元性,让模型更好响应创作者对镜头的控制,平台增加运镜控制功能,以绝对命令控制视频画面的运镜行为,可以通过位移参数的调节进行运镜幅度的选择,以下是对一只大熊猫在湖边弹钢琴”的不同运镜举例:
首尾帧能力
首尾帧功能,即上传两张图片,模型将这两张图片作为首帧和尾帧生成视频,通过点击「图生视频」功能右上角的「增加尾帧」进行体验。
首尾帧功能可以实现对视频的更精细控制,现阶段主要应用于视频创作中对首帧尾帧有控制要求的视频生成,能够较好实现预期生成视频的动态过渡,但需要注意的是,首帧尾帧视频内容需要尽量相似,如果差别较大会引起镜头切换。
首尾帧图片生成的视频如下:
运动笔刷能力
运动笔刷功能,即上传任意一张图片,用户可以在图片中通过“自动选区”或者“涂抹”对某一个区域或主体进行选中,添加运动轨迹,同时输入符合预期的运动Prompt(主体+运动),点击生成后模型将为用户生成添加指定运动后的图生视频结果,以此来控制特定主体的运动表现,补足进阶的图生视频可控生成。
运动笔刷功能作为图生视频更强的可控生成能力,可以进一步按照用户意愿生成期望的区域或主体的指定运动,比如图生视频比较难实现的“球类运动”,以及对人物/动物转向和行走路线”的生成等,支持6种主体和轨迹的同时设置,另外,本次支持“静态笔刷”功能,用静态笔刷涂抹后,模型将固定涂抹区域的像素点,避免运镜发生,如果不希望运动轨迹可能引起的镜头运动,建议在图片底部添加静态笔刷。
对口型
「对口型」功能,支持你在可灵AI生成人物视频后,上传本地配音/歌唱文件,或者通过文本朗读功能在线生成配音,可灵AI就能让你的视频人物
口型和音频完美同步,仿佛真人在说话/唱歌,视频瞬间栩栩如生!
使用方法:
(1)使用可灵Al,生成包含完整的人物面容的视频;点击预览视频下的「对口型」;
(2)在打开的对口型弹窗内,使用文本朗读生成配音,或者上传本地配音/歌唱文件
文本朗读的音色均为说话超拟真的大模型音色,并支持在0.8-2倍速范围内调节说话快慢。
(3)点击对口型按钮,等待视频生成,即可得到视频人物口型和音频完美同步的结果
注意:对口型为付费功能,价格和角色视频的长度有关,5s的视频对口型需花费5灵感值,10s的视频对口型需花费10灵感值。
如果你如果你上传的音频、或者文本朗读生成的音频,超过了画面长度,我们也将为你提供裁剪音频长度的功能。
详情查看链接:【可灵AI官方教程】