今天凌晨,OpenAI 发布了 AI 视频生成工具 Sora,迅速成为全球关注的焦点。就连与 OpenAI 关系微妙的马斯克也不得不承认 Sora 的强大,并预言 “未来几年,AI 将帮助人类创造出卓越的作品。”
Sora 的核心优势
Sora 的最大亮点在于,它能够根据文本描述生成长达 60 秒的连贯视频,视频中包含了细腻的场景、生动的角色表情以及复杂的镜头运动。与其他只能生成几秒钟视频的工具相比,Sora 的 1 分钟时长无疑是一次颠覆性的突破。
在视频的真实性、长度、稳定性、一致性和分辨率等方面,Sora 都展现了目前最佳的水平。以下是一段官方演示视频的描述:
Prompt: 美丽的雪天,东京街头熙熙攘攘。镜头穿过繁忙的街道,跟随几位享受雪景和购物的行人。樱花花瓣与雪花随风飞舞。
这段视频中,无人机视角下的一对情侣穿梭于繁华的街道,樱花花瓣与雪花交织,画面美不胜收。Sora 不仅实现了多镜头的无缝切换,还保持了极高的连贯性和一致性,堪称降维打击。
Sora 的技术原理
OpenAI 发布了一份详细的技术报告,揭示了 Sora 背后的技术原理。Sora 的成功离不开以下几个关键创新:
-
视觉块嵌入代码(Patches)
OpenAI 引入了视觉块嵌入代码,这是一种高度可扩展的视觉数据表现形式,能够显著提升生成模型处理多样化视频和图像数据的能力。 -
低维潜在空间压缩
视频数据首先被压缩至低维潜在空间,然后分解为时空嵌入,转化为一系列编码块。 -
解码器模型
训练了一个解码器模型,将潜在表征还原为像素级的视频图像。
通过这些技术,Sora 能够适应不同分辨率、持续时间和宽高比的视频和图像,生成高质量的内容。
Sora 的多功能应用
Sora 不仅可以从文本生成视频,还能接受图片或已有视频的输入,完成多种编辑任务,例如:
- 制作无缝循环视频
- 为静态图片添加动画效果
- 延长视频播放时间
此外,Sora 还能生成高达 2048×2048 分辨率的图像,展现了其强大的多功能性。
Sora 的局限与未来
尽管 Sora 表现出了惊人的能力,OpenAI 也坦率地承认了其当前的局限性。例如,Sora 无法精确模拟复杂场景的物理效应,例如玻璃破碎等基本物理互动。
然而,OpenAI 坚信,Sora 的能力表明,持续扩展视频模型是开发能够模拟物理和数字世界的有能力模拟器的重要途径。
世界模型:AI 的下一个方向?
Sora 展示出了一系列涌现能力,例如三维空间的连贯性、远距离连续性与物体持久性,以及数字化过程的模拟。OpenAI 将 Sora 视为 “能够理解和模拟现实世界的模型的基础”,并相信其能力将成为实现 AGI 的重要里程碑。
总结
Sora 的发布标志着 AI 视频生成领域的一次重大突破。它不仅降低了视频创作的门槛,还为独立创作者带来了无限可能。随着技术的不断发展,AI 视频生成的未来将更加令人期待。
正如《三体》中所说,“主不在乎”,无论当前的竞争态势如何,AI 视频生成领域都将在新的技术和创新中不断进化。而 Sora 的入局,仅仅是个开始。