OpenAI发布文生视频模型Sora

2月16日凌晨，OpenAI发布了其最新成果——文生视频模型Sora。这一模型可以根据用户的指令，生成长达60秒的高清视频，同时也能够从静态图像中生成视频，并对现有视频进行扩展和填补缺失内容。据介绍，Sora不仅可以生成复杂场景，包括多角色和多角度镜头，还能精确呈现物体和背景的细节，以及角色的情感表达。

OpenAI官网上已经发布了48个视频demo，展示了Sora的强大功能。这些demo中，Sora展现了出色的细节呈现能力，并且能够深刻理解物体在现实世界中的存在状态，生成具有丰富情感的角色。例如，通过一个Prompt描述，在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上，Sora生成的视频中，女士身着黑色皮衣、红色裙子，在霓虹街头行走，不仅主体连贯稳定，还包含了多个镜头，展现了丰富的细节和情感表达。

除了能够生成复杂场景外，Sora还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。通过使用Transformer架构，Sora具有极强的扩展性，并且利用了类似于GPT中的标记（Token）的“补丁”数据单位集合，使得模型能够在更广泛的视觉数据上进行训练和扩散变化。

OpenAI表示，他们的目标是教会AI理解和模拟运动中的物理世界，以解决现实世界中需要交互的问题。Sora是在对DALL·E和GPT的研究基础上构建的，利用了DALL·E 3的重述提示词技术，为视觉模型提供高描述性的标注，从而使得模型能够更好地遵循文本指令。

在线地址：https://openai.com/sora

收藏点赞(0)

来源：OpenAI，仅供学习参考，如有侵权请联系我们。