OpenAI发布视频模型Sora！效果炸裂，支持60s长视频，但依然存在这些问题

今日，OpenAI隆重推出了Sora——一款能够根据文本生成视频的生成性AI模型。只需一段简短或详细的描述，或是一张静态图片，Sora就能创造出1080p电影般的场景，其中包括多个角色、各种动作类型以及背景细节。

Sora还能“延伸”现有的视频剪辑——尽其所能填补缺失的细节。

OpenAI在其博客文章中写道：“Sora深刻理解语言，使其能够准确解读提示，并生成表达丰富情感的引人入胜的角色。这个模型不仅理解用户在提示中所要求的，而且还懂得这些要求在物理世界中是如何存在的。”

看看这个由Sora生成的艺术画廊之旅：

或者这个绽放的花朵动画：

Sora可以生成多种风格的视频（例如，真实感、动画、黑白），时长可达一分钟——远超大多数文本到视频模型。而且这些视频在连贯性方面保持了合理的水平，它们并不总是屈服于我所说的“AI怪异性”，比如物体以物理上不可能的方向移动。

Sora生成的一些视频，其人形主题——比如，站在城市景观中的机器人，或者一个人走在雪地小径上——具有一种游戏般的质感，可能是因为背景中没有太多发生的事情。AI的怪异性在许多剪辑中仍然能够悄然出现，比如汽车向一个方向驶去，然后突然倒车，或者手臂融入被罩中。

OpenAI承认这个模型不是完美的：“Sora可能在准确模拟复杂场景的物理效应方面遇到困难，也可能不理解特定的因果关系实例。例如，一个人可能会咬一口饼干，但之后，饼干可能不会留下咬痕。模型也可能混淆提示中的空间细节，例如，搞混左右，可能在随时间发生的事件的精确描述方面遇到困难，比如遵循特定的摄像机轨迹。”

OpenAI非常明确地将Sora定位为一个研究预览，几乎没有透露用于训练模型的数据细节（除了约10,000小时的“高质量”视频），并且没有让Sora普遍可用。其理由是滥用的潜在可能性；OpenAI正确指出，像Sora这样的模型可能会被不法分子以多种方式滥用。

OpenAI表示，它正在与专家合作探索模型的漏洞，并开发工具以检测视频是否由Sora生成。该公司还表示，如果决定将该模型构建成面向公众的产品，将确保在生成的输出中包含来源元数据。

OpenAI写道：“我们将与全球的政策制定者、教育工作者和艺术家进行接触，以了解他们的担忧，并识别这项新技术的积极用例。尽管进行了广泛的研究和测试，但我们无法预测人们将以所有有益的方式使用我们的技术，也无法预测所有人们会如何滥用它。这就是为什么我们认为，从现实世界的使用中学习是随时间创建和发布越来越安全的AI系统的一个关键组成部分。”

Sora中文社区