平凡的平凡

文章

2024-02-26 17:37:28

Sora AI是怎么个原理?

关于Sora，直接说技术名词会让人头晕，我们试着从图像生成的原理开始。

^{拿Sora生成的这个猛犸象来举例，生成它的Prompt，也就是「提示词」，是下面这个：}

Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

翻译：几只巨大的猛犸象在白雪皑皑的草地上踩踏的连续故事在一系列四张图像中栩栩如生。这些图像捕捉了猛犸象在冬季景观的壮丽背景下的雄伟旅程，从远处的接近到特写镜头，突出了它们令人印象深刻的体型和皮毛的复杂细节。

你可以看到我加粗的地方，就是这个视频中的主要故事线，猛犸象、雪地、踩踏、远景到特写镜头，Sora的完成度非常高。

我用了同样的提示词，让Dalle-3给我画出这个Prompt想要表达的内容。

你看，是不是也非常的贴合提示词的内容，该有的元素基本上都有，猛犸象、雪地、踩踏。

更贴合的是第一张表现出来的远景，以及二三四张体现出来的近景特写。

那其实我们就可以引入「Sora是怎么做视频」这个问题了。

首先，我们先来分析一下视频到底是什么，还拿Sora生成的这个猛犸象视频举例，当我们把它放进剪辑软件里面，你可以很清楚地看到视频其实是由一张张图片组成的。

每一个卡顿其实就代表了从一张图片到下一张图片，下面的图就代表了视频的这一刻，显示的是这张图片。

而一秒钟视频包含了多少张图片呢？

一般最少是12帧，多的会到24帧，甚至会更高，计量单位是fps，也就是frame per second （每秒的帧数）。

那低帧数和高帧数有什么区别呢？最明显的区别就是流畅度，你可以从下图很明显看到，同样是起跳到高处，高帧数会比低帧数更为流畅，也更丝滑。

话说回来，视频是由图片构成的，然后图片生成技术在去年发展飞快，比如Midjourney，Stable DIffusion，Dalle-3等等，都可以用来生成各种图片，这种Dalle-3画猛犸象，非常的容易。

同样的关键词下，Midjourney的生成效果：

但是Sora最大的贡献就是让生成的图片非常的连续，也就是一致。

比如我们看一下猛犸象视频的第二秒和第八秒。

首先是第二秒：

然后是第八秒：

你可以仔细看下图片的背景，包括雪地、后门的树林以及左边的雪山，是不是几乎看不出什么变化来。

另外你也可以注意一下第一头象，它头顶上的那撮毛发，是不是过了6秒钟还依然很一致？

这就是Sora牛逼的地方，因为生成图片不难，按照提示词生成图片也不难，难的是如何生成一大堆连续的图片。

这个难度是这样的，Sora可以生成1分钟的视频，一分钟=60秒=60*24 = 1440帧 = 1440张连续的图片。

一致性是核心。

^{根据OpenAI提供的有限的技术报告，Sora主要是利用了Diffusion和Transformer模型。}

首先Diffusion 模型，也叫扩散模型，它的原理是给一张图片加噪音，也就是下面的这种雪花一样的东西，然后再把加了噪音的图片还原回去，AI会学习这种「加噪/去噪」的方式来生成我们想要的图片。

Transformer模型是一种网络模型，它的一个非常重要的作用是来捕捉全局，可以参考我之前的文章解释为什么ChatGPT在第五轮对话的时候，会引用你在第一轮说过的话。

^{这两个模型各有优缺点，diffusion model更多的注意力在细节，这也是为什么它可以生成非常精美的图片的原因；transformer更擅长掌控全局。}

再回想一下，视频 = 连续地精美图片。

这不就来了，连续需要的是对于图片整体的把握，比如说奔跑动作，transformer model可以控制前后两张图片的相关部分运动，也就是整体的动作把控；精美的图片由diffusion model来负责，它可以将图片生成的非常细节。

从技术报告里看，这是为什么生成的视频可以保持一致性的主要原因。

当然了，更多的细节OpenAI并没有公布，估计数据集的准备，以及训练的细节才是他们成功的主要原因。

Sora中文社区

分享

8

0

全部评论

平凡的平凡

热门内容

1 小时深度解读 Sora 技术报告

2024年2月23日晚上7点30--9点，由极客邦科联合创始人兼COO--Selina以及GO语言技术专家--郑建勋在直播间进行1 小时深度解读 Sora 技术报告

关于Sora是什么-1、定义

Sora 的推出不仅展示了 OpenAI 在人工智能和深度学习领域的持续创新和领导地位，也为未来的多媒体内容创作、游戏开发、虚拟现实等领域提供了新的工具和可能性。随着技术的进一步发展和优化，我们可以期待 Sora 和类似模型将如何重新定义我们与数字世界的互动方式。

如何使用Sora

首先，你得学会科学上网。再按照下面的步骤——

Sora技术报告（官方报告整理版本）

尽管 Sora 作为一种模拟器还存在许多局限，比如它在模拟某些基本交互，如玻璃破碎时的物理规律不够准确，或者在模拟吃食物等互动时，物体状态的改变并不总是正确。我们在主页上列出了模型的其他常见失败模式，如在长时间样本中出现的不连贯性或对象的突然出现等。我们相信，Sora 目前所展现的能力证明了，继续扩大视频模型的规模是向着开发能够模拟物理和数字世界及其居民的高级模拟器迈出的一大步。点击查看＞＞＞

欢迎来到AI Top100！我们聚合全球500+款AI智能软件，提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台，让您轻松了解全球AI领域动态，并为您提供优质服务。

合作伙伴

联系我们

加入AITOP100社群

加入社群

AITOP100商务微信

商务微信

相关链接

服务及隐私政策