2025-09-21 15:19来源:本站
新德里,2月16日:聊天工具制造商OpenAI发布了Sora,这是一种新的文本转视频模型,可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。Sora是一个扩散模型,它从一个看起来像静态噪声的视频开始,然后通过许多步骤去除噪声来逐渐改变它。
该公司表示:“Sora能够一次生成完整的视频,也可以扩展生成的视频,使其更长。”除了能够完全根据文本指令生成视频外,该模型还能够获取现有的静止图像并从中生成视频,“精确地将图像内容动画化,并关注小细节”。
与GPT模型类似,Sora使用变压器架构,解锁卓越的缩放性能。该公司表示,它正在向“红队(领域专家)提供Sora,以评估关键领域的危害或风险”。OpenAI在一份声明中表示:“我们还允许一些视觉艺术家、设计师和电影制作人获得反馈,以了解如何推进该模型,使其对创意专业人士最有帮助。”
Sora将能够生成具有多个角色、特定类型的运动以及精确的主题和背景细节的复杂场景。OpenAI表示:“这个模型不仅能理解用户在提示中提出的要求,还能理解这些东西在现实世界中的存在方式。”
Sora还可以在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。然而,该公司承认,目前的模式有其自身的弱点。“它可能难以准确地模拟复杂场景的物理,也可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后,饼干可能没有咬痕,”OpenAI解释说。
该公司进一步表示,在将Sora应用于OpenAI的产品之前,它将采取重要的安全措施。“我们正在与红队合作,红队是错误信息、仇恨内容和偏见等领域的专家,他们将对该模型进行对抗性测试。我们还在开发一些工具来帮助检测误导性内容,比如一个检测分类器,它可以分辨出视频是何时由Sora生成的。”