
2024-02-26 17:37:28
Sora AI是怎么个原理?
关于Sora,直接说技术名词会让人头晕,我们试着从图像生成的原理开始。
拿Sora生成的这个猛犸象来举例,生成它的Prompt,也就是「提示词」,是下面这个 :
Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
翻译:几只巨大的猛犸象在白雪皑皑的草地上踩踏的连续故事在一系列四张图像中栩栩如生。这些图像捕捉了猛犸象在冬季景观的壮丽背景下的雄伟旅程,从远处的接近到特写镜头,突出了它们令人印象深刻的体型和皮毛的复杂细节。
你可以看到我加粗的地方,就是这个视频中的主要故事线,猛犸象、雪地、踩踏、远景到特写镜头,Sora的完成度非常高。
我用了同样的提示词,让Dalle-3给我画出这个Prompt想要表达的内容。
你看,是不是也非常的贴合提示词的内容,该有的元素基本上都有,猛犸象、雪地、踩踏。
更贴合的是第一张表现出来的远景,以及二三四张体现出来的近景特写。
那其实我们就可以引入「Sora是怎么做视频」这个问题了。
首先,我们先来分析一下视频到底是什么,还拿Sora生成的这个猛犸象视频举例,当我们把它放进剪辑软件里面,你可以很清楚地看到视频其实是由一张张图片组成的。
每一个卡顿其实就代表了从一张图片到下一张图片,下面的图就代表了视频的这一刻,显示的是这张图片。
而一秒钟视频包含了多少张图片呢?
一般最少是12帧,多的会到24帧,甚至会更高,计量单位是fps,也就是frame per second (每秒的帧数)。
那低帧数和高帧数有什么区别呢?最明显的区别就是流畅度,你可以从下图很明显看到,同样是起跳到高处,高帧数会比低帧数更为流畅,也更丝滑。
话说回来,视频是由图片构成的,然后图片生成技术在去年发展飞快,比如Midjourney,Stable DIffusion,Dalle-3等等,都可以用来生成各种图片,这种Dalle-3画猛犸象,非常的容易。
同样的关键词下,Midjourney的生成效果:
但是Sora最大的贡献就是让生成的图片非常的连续,也就是一致。
比如我们看一下猛犸象视频的第二秒和第八秒。
首先是第二秒:
然后是第八秒:
你可以仔细看下图片的背景,包括雪地、后门的树林以及左边的雪山,是不是几乎看不出什么变化来。
另外你也可以注意一下第一头象,它头顶上的那撮毛发,是不是过了6秒钟还依然很一致?
这就是Sora牛逼的地方,因为生成图片不难,按照提示词生成图片也不难,难的是如何生成一大堆连续的图片。
这个难度是这样的,Sora可以生成1分钟的视频,一分钟=60秒=60*24 = 1440帧 = 1440张连续的图片。
一致性是核心。
根据OpenAI提供的有限的技术报告,Sora主要是利用了Diffusion和Transformer模型。
首先Diffusion 模型,也叫扩散模型,它的原理是给一张图片加噪音,也就是下面的这种雪花一样的东西,然后再把加了噪音的图片还原回去,AI会学习这种「加噪/去噪」的方式来生成我们想要的图片。
Transformer模型是一种网络模型,它的一个非常重要的作用是来捕捉全局,可以参考我之前的文章解释为什么ChatGPT在第五轮对话的时候,会引用你在第一轮说过的话。
这两个模型各有优缺点,diffusion model更多的注意力在细节,这也是为什么它可以生成非常精美的图片的原因;transformer更擅长掌控全局。
再回想一下,视频 = 连续地精美图片。
这不就来了,连续需要的是对于图片整体的把握,比如说奔跑动作,transformer model可以控制前后两张图片的相关部分运动,也就是整体的动作把控;精美的图片由diffusion model来负责,它可以将图片生成的非常细节。
从技术报告里看,这是为什么生成的视频可以保持一致性的主要原因。
当然了,更多的细节OpenAI并没有公布,估计数据集的准备,以及训练的细节才是他们成功的主要原因。
分享
8
0

全部评论
加载更多
热门内容