OpenAI Sora 视频生成模型技术报告

OpenAI Sora

导读:OpenAI 近期发布了正在封闭测试的 Sora,这是一款基于文本生成视频的先进模型。本文将深入探讨其生成模型的技术细节。

Sora 的核心技术

OpenAI 的研究团队探索了视频数据生成模型的大规模训练方法。具体来说,他们在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散模型。通过利用视频和图像潜在代码的时空特性,Sora 能够生成长达一分钟的高质量视频。

OpenAI 认为,这一成果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前景的路径。

技术亮点

  1. 统一表示法:OpenAI 将各种类型的视觉数据转化为统一的表示形式,从而实现了大规模生成模型的训练。
  2. 定性评估:报告详细评估了 Sora 的能力及其局限性,为未来的改进提供了方向。

遗憾的是,OpenAI 并未公开模型和训练的具体细节。

视频生成的前沿技术

近年来,视频生成已成为 AI 领域的重要研究方向。早期的工作主要集中在循环网络、生成对抗网络、自回归变压器和扩散模型等技术的应用。这些研究通常专注于单一类型的视觉数据或固定尺寸的视频。

与之不同的是,OpenAI 的 Sora 是一个通用视觉模型,能够生成不同时长、宽高比和分辨率的视频与图像,最高可输出长达一分钟的高清视频。

动态数据模型的创新

OpenAI 从大型语言模型(LLM)的训练中汲取灵感。LLM 通过互联网规模的数据训练获得了出色的通用能力,而 Sora 则采用了动态补丁技术。研究表明,补丁是动态数据模型的有效表示形式。

在更高层次上,OpenAI 首先将视频压缩到低维潜在空间,然后将表示划分为时空补丁,从而将视频转换为补丁。这种方法使 Sora 能够处理不同分辨率、持续时间和宽高比的视频与图像。

扩散变压器的应用

Sora 是一个基于扩散变换器的模型。它通过输入噪声补丁和文本提示等调节信息,预测原始的“干净”补丁。扩散变换器在语言建模、计算机视觉和图像生成等多个领域展示了卓越的扩展特性。

OpenAI 的研究表明,扩散变换器在视频模型中也具有高效的扩展能力。随着训练计算量的增加,生成视频的样本质量显著提高。

可变持续时间、分辨率和宽高比

传统的视频生成方法通常会将视频调整为标准尺寸,例如 256×256 分辨率的 4 秒视频。OpenAI 发现,直接在原始尺寸上进行训练具有多个优势。

采样灵活性

Sora 能够生成宽屏 1920x1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有格式。这使得 Sora 能够直接为不同设备创建原生宽高比的内容,并在生成全分辨率之前快速制作低分辨率原型。

构图与取景的改进

OpenAI 发现,在原始宽高比上进行训练可以显著改善视频的构图和取景。与将所有训练视频裁剪为正方形的模型相比,Sora 生成的视频在取景上表现出更高的质量。

语言理解与视频生成

训练文本到视频生成系统需要大量带有相应文本字幕的视频。OpenAI 采用了 DALL·E 3 中引入的重新字幕技术,首先训练一个高度描述性的字幕生成器模型,然后为训练集中的所有视频生成文本字幕。这种方法显著提高了文本的准确性以及视频的整体质量。

与 DALL·E 3 类似,OpenAI 还利用 GPT 将简短的用户提示转换为更长的详细字幕,从而生成高质量且符合用户提示的视频。

图像与视频的提示生成

Sora 不仅可以通过文本提示生成视频,还可以通过预先存在的图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,例如创建循环视频、为静态图像添加动画以及延长视频时间。

动画 DALL·E 图像

Sora 能够根据输入的图像和提示生成视频。OpenAI 展示了基于 DALL·E 2 和 DALL·E 3 图像生成的示例视频。

扩展生成的视频

Sora 还能够将视频向前或向后扩展,生成无缝的无限循环。通过这种方法,OpenAI 展示了从生成的视频片段扩展的四个视频,这些视频的开头各不相同,但最终都达到相同的结局。

图像生成能力

Sora 还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块,Sora 可以生成分辨率高达 2048×2048 的图像。

图像生成示例

模拟能力

OpenAI 发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差,它们纯粹是规模效应的现象。

3D 一致性

Sora 能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。

长距离一致性与物体持久性

Sora 通常能够有效地建模短距离和长距离依赖关系。例如,即使在人、动物和物体被遮挡或离开画面时,模型也能够持续保持它们的存在。

与世界互动

Sora 有时可以模拟一些简单的动作来影响世界的状态。例如,画家可以在画布上留下新的笔画,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界

Sora 还能够模拟人工过程,例如视频游戏。通过提示 Sora 并提及“Minecraft”的标题,Sora 可以控制《我的世界》中的玩家并以高保真度渲染世界及其动态。

讨论与展望

Sora 目前作为模拟器表现出许多限制。例如,它不能准确地模拟许多基本交互的物理过程,例如玻璃破碎。其他交互,例如吃食物,并不总是会产生对象状态的正确变化。

尽管如此,OpenAI 相信,Sora 目前的能力表明,持续扩展视频模型是开发物理和数字世界及其内部物体、动物和人类的高性能模拟器的一条有希望的道路。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

来源:专知 / 人工智能学家

上一篇 1天前
下一篇 23小时前

热门推荐