文章
2024-02-27 09:53:18
OpenAI发布视频模型Sora!效果炸裂,支持60s长视频,但依然存在这些问题
今日,OpenAI隆重推出了Sora——一款能够根据文本生成视频的生成性AI模型。只需一段简短或详细的描述,或是一张静态图片,Sora就能创造出1080p电影般的场景,其中包括多个角色、各种动作类型以及背景细节。
Sora还能“延伸”现有的视频剪辑——尽其所能填补缺失的细节。
OpenAI在其博客文章中写道:“Sora深刻理解语言,使其能够准确解读提示,并生成表达丰富情感的引人入胜的角色。这个模型不仅理解用户在提示中所要求的,而且还懂得这些要求在物理世界中是如何存在的。”
看看这个由Sora生成的艺术画廊之旅:
或者这个绽放的花朵动画:
Sora可以生成多种风格的视频(例如,真实感、动画、黑白),时长可达一分钟——远超大多数文本到视频模型。而且这些视频在连贯性方面保持了合理的水平,它们并不总是屈服于我所说的“AI怪异性”,比如物体以物理上不可能的方向移动。
Sora生成的一些视频,其人形主题——比如,站在城市景观中的机器人,或者一个人走在雪地小径上——具有一种游戏般的质感,可能是因为背景中没有太多发生的事情。AI的怪异性在许多剪辑中仍然能够悄然出现,比如汽车向一个方向驶去,然后突然倒车,或者手臂融入被罩中。
OpenAI承认这个模型不是完美的:“Sora可能在准确模拟复杂场景的物理效应方面遇到困难,也可能不理解特定的因果关系实例。例如,一个人可能会咬一口饼干,但之后,饼干可能不会留下咬痕。模型也可能混淆提示中的空间细节,例如,搞混左右,可能在随时间发生的事件的精确描述方面遇到困难,比如遵循特定的摄像机轨迹。”
OpenAI非常明确地将Sora定位为一个研究预览,几乎没有透露用于训练模型的数据细节(除了约10,000小时的“高质量”视频),并且没有让Sora普遍可用。其理由是滥用的潜在可能性;OpenAI正确指出,像Sora这样的模型可能会被不法分子以多种方式滥用。
OpenAI表示,它正在与专家合作探索模型的漏洞,并开发工具以检测视频是否由Sora生成。该公司还表示,如果决定将该模型构建成面向公众的产品,将确保在生成的输出中包含来源元数据。
OpenAI写道:“我们将与全球的政策制定者、教育工作者和艺术家进行接触,以了解他们的担忧,并识别这项新技术的积极用例。尽管进行了广泛的研究和测试,但我们无法预测人们将以所有有益的方式使用我们的技术,也无法预测所有人们会如何滥用它。这就是为什么我们认为,从现实世界的使用中学习是随时间创建和发布越来越安全的AI系统的一个关键组成部分。”
分享
6
1
全部评论
加载更多
热门内容