一、可灵 AI 的崛起之路
自今年 6 月发布以来,可灵 AI 开启了令人瞩目的崛起之路。6 月 6 日发布后,开放申请人数迅速增长,7 月 19 日申请使用人数已超过百万,其中超过 30 万人获得试用资格。在 WAIC2024 上,可灵 AI 正式发布了 Web 端和多项新功能,并将生成视频的时长扩展至 10 秒。此后,可灵 AI 不断迭代升级,累计已进行了多次迭代。9 月 19 日,可灵 AI 迎来重磅升级,视频生成新增可灵 1.5 模型,在画质质量、动态质量、美学表现、运动合理性以及语义理解等方面均有显著提升。同时,还引入了全新的 “运动笔刷” 功能,进一步提升视频生成的精准控制能力。
随着功能的不断优化,可灵 AI 的用户数量也在持续增长。8 月 27 日,已有超过 160 万人使用过可灵 AI,并累计生成超 1600 万条视频。到了日前举行的 2024 中国计算机大会上,可灵 AI 用户量已超 360 万,累计生成 3700 万个视频以及超过一亿张图片。此外,近期快手可灵 AI 将上架独立 App,以便于用户的使用,同时还将内测视频人脸模型功能,有效解决以往 AI 视频生成中无法打造稳定人物 IP 角色的难题。可灵 AI 的发展历程充分展现了其在视频生成领域的强大实力和巨大潜力。
二、V1.5 模型的重大升级
(一)画质飞跃
可灵 1.5 模型在画面质量上实现了重大飞跃。其支持生成 1080p 高清视频,相比可灵 1.0 模型,画面清晰度有了直观可感的提升。例如,通过输入提示词 “女孩看着车窗”,可发现 1.5 模型中女孩面部细节更清晰丰富,车窗的水雾、整体光影表现等也都更加出色。同时,画面整体构图进一步优化,更具美感。
(二)动态质量升级
在动态质量方面,可灵 1.5 模型进步显著。对比可灵 AI 此前的吃面案例,输入提示词 “小男孩吃面”,1.5 模型生成的视频中,面条从被夹起到入口这一过程,在弹性、垂坠感等方面有非常真实的物理表现。小男孩右手握住筷子和吃面时的咀嚼动作也更加自然流畅,整体运动合理性大大增强。
(三)文本响应度提升
可灵 1.5 模型对文本的响应度有了显著提升。它能够更准确地理解和执行用户的文本指令,在图生视频理解能力方面也表现出色。例如,通过一张没有人物的食物照片和提示词 “镜头拉远,一个小男孩走到桌前拿起勺子开始吃饭”,在生成的视频中,随着镜头的微微晃动,一个勺子 “入场”,然后画面聚焦到握着勺子的小男孩,看他将一勺饭菜送到嘴里,勺子在碗里拨开饭粒的细节也都被细致地呈现了出来。
(四)新增运动笔刷功能
可灵 1.5 模型新增的运动笔刷功能大幅提升了视频生成的精准控制能力。该功能支持为图片中的元素(人或物体等)指定运动轨迹,用户只需将图片中需要控制运动方向的部分勾勒出来,然后画一个示意运动方向箭头,就可实现精准运动控制。此外,还可以为某些元素额外指定静止区域,让视频内容有更好的运动控制及运动表现。目前,多种尺寸格式的图片都支持使用「运动笔刷」生成视频,生成视频时长为 5 秒。
(五)其他功能升级
可灵 AI 还有一系列其他功能升级。支持一次性生成最多 4 条视频,方便创作者快速选取到最优生成结果;“图生视频” 功能新增支持 10 秒时长并在标准模式下支持增加尾帧;“AI 图片” 功能支持 “画质增强”。此外,官方还上线了使用指南,帮助用户更好地掌控可灵 AI。
三、V1.5 模型的特点与优势
(一)1080P 高清输出
可灵 1.5 模型支持直出 1080P 高清视频,这一优势为用户带来了前所未有的视觉体验。在如今追求高清画质的时代,可灵 1.5 挑战大屏清晰度与质感,无论是在家庭影院还是专业显示设备上,都能展现出细腻的画面和丰富的色彩。与传统的视频生成工具相比,可灵 1.5 的 1080P 高清输出使其在画质上脱颖而出,为用户提供了更加优质的创作素材。
(二)多维度测评表现
- AI 拟人化:当输入提示词 “一只柴犬手里拿着报纸,它正坐在沙发上看报纸” 时,可灵 1.5 模型生成的效果令人惊喜。小狗将报纸摊开,津津有味地看着,虽有美中不足的地方,但整体表现不错。
- 物理定律:在 “一个女孩正在将一杯牛奶倒入另一个杯子里” 的提示下,可灵 1.5 生成的视频完美地呈现了物理定律,小女孩将牛奶顺利倒入另一个杯子,没有出现不合理的情况。
- 运镜轨迹:然而,在 “两只蝴蝶停落在花朵上,视频画面由远到近不断的放大” 这一提示中,可灵 1.5 稍显不足,没有清晰地描绘出运镜规则,而是定格在蝴蝶近景后切换场景。
- 人物连续性:“女孩正在吃西瓜,吃完西瓜后,开心的笑了” 的提示词下,可灵 1.5 生成的视频完全遵循提示,小女孩吃完西瓜后的笑容自然,脸部也没有崩的迹象。
- 卡通视频风格:对于 “视频生成卡通形象,一只企鹅正在大海里游泳” 的提示,可灵 1.5 生成的卡通企鹅在海里游泳的效果良好,还有其他卡通动物,增加了画面的趣味性。
- 数字理解:在 “2 位男士和 3 位女士在同一个超市里购买鸡蛋” 的提示下,可灵 1.5 对数字的理解稍有偏差,生成的视频中人数和鸡蛋的种类与提示不符。通过这六个维度的测评,可灵 1.5 在运动轨迹和数字理解方面还有提升空间,但在 AI 拟人性、物理定律、人物一致性、视频卡通风格方面表现出色。
(三)与竞品对比
将可灵 1.5 模型与 Sora 进行对比,可发现可灵在视频输出质量和文字理解方面具有明显优势。在多个场景的测试中,可灵 1.5 的表现令人惊艳。例如在 “一个时髦的女人走在东京的街道上” 的场景中,可灵生成的视频无论是画质还是对文字的理解都与 Sora 不相上下。在 “一群纸飞机在茂密的丛林中飞舞,像候鸟一样在树木之间穿梭” 的场景中,虽然可灵的表现稍逊一筹,但在其他两个场景 “毛茸茸的矮个子怪物跪在融化的红烛旁” 中,可灵的效果已经可以堪比 Sora。这表明可灵 1.5 模型在与竞品的对比中,具有强大的竞争力,为用户提供了更优质的视频生成选择。
四、可灵 AI 的未来展望
可灵 AI 作为一款具有强大实力和巨大潜力的视频生成工具,在未来有着广阔的发展前景。
从技术层面来看,可灵 AI 有望持续提升其画质质量、动态质量和文本响应度。随着人工智能技术的不断进步,可灵 AI 可以通过不断优化算法和模型,进一步提高视频生成的清晰度、流畅度和准确性。例如,在画质方面,未来可能实现更高分辨率的视频输出,甚至达到 4K 或更高的画质水平。在动态质量方面,可灵 AI 可以更加精准地模拟物理世界的特性,使生成的视频中的物体运动更加自然、真实。在文本响应度方面,可灵 AI 可以不断提高对复杂文本指令的理解能力,为用户提供更加个性化的视频生成服务。
在功能拓展方面,可灵 AI 可以不断推出新的功能,满足用户日益多样化的需求。例如,未来可灵 AI 可以增加更多的运动控制方式,让用户能够更加自由地控制视频中的元素运动。同时,可灵 AI 可以进一步优化其 “图生视频” 和 “AI 图片” 功能,提供更多的编辑选项和效果,让用户能够更加轻松地制作出高质量的视频和图片。此外,可灵 AI 还可以与其他领域的技术进行融合,如虚拟现实、增强现实等,为用户带来更加丰富的创作体验。
从应用场景来看,可灵 AI 将在影视、广告、教育等多个领域发挥重要作用。在影视行业,可灵 AI 可以为创作者提供更多的创意空间,降低制作成本,提高制作效率。例如,通过可灵 AI 生成的特效场景和角色,可以为电影、电视剧增添更多的视觉震撼力。在广告领域,可灵 AI 可以制作出个性化的视频广告,更好地吸引消费者的注意力,提高营销效果。在教育领域,可灵 AI 可以制作出生动有趣的教学视频,帮助学生更好地理解知识,提高学习兴趣。
在对 AI 视频生成领域的影响和推动作用方面,可灵 AI 将成为行业的引领者。可灵 AI 的不断创新和发展,将推动整个 AI 视频生成领域的技术进步和应用拓展。同时,可灵 AI 的成功经验也将为其他企业提供借鉴和参考,促进整个行业的良性竞争和发展。
总之,可灵 AI 在未来有着巨大的发展潜力,将为用户带来更加优质的视频生成服务,为 AI 视频生成领域的发展做出重要贡献。
更多AI行业最新资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html