Open AI为狙击谷歌发布了他们的视频生成模型Sora,这个视频模型可以生成长达1分钟的视频,在时长、稳定性、一致性和运动幅度上全部碾压现在所有的视频生成模型。
Sora的视频生成能力:
- Sora 能够生成提供图像和提示作为输入的视频。
- Sora 还能够在时间上向前或向后扩展视频。比如多个视频都是从生成的视频片段开始向后延伸的。因此,几个视频的开头都不同,但所有视频的结局都是相同的。使用此方法向前和向后扩展视频以产生无缝的无限循环。
- 扩散模型启用了多种根据文本提示编辑图像和视频的方法。将其中一种方法 SDEdit, 32 应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。
- 还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
- Sora 还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048×2048。
Sora还有一些其他的特征:
- 3D 一致性: Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。
- 长期连贯性(Long-range coherence)和物体持久性(Object permanence):是视频生成系统面临的重大挑战之一,特别是在采样长视频时维持时间上的连续性。Sora通常能够有效地处理短期和长期依赖关系,尽管并不总是如此。
- 与世界互动:Sora 有时可以用简单的方式模拟影响世界状况的行动。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
- 模拟数字世界:Sora同样能够模拟人工过程,例如视频游戏。在Minecraft中,Sora可以同时控制玩家的基本策略,还能高保真度地渲染游戏世界及其动态变化。通过使用提及“Minecraft”的字幕提示Sora,可以实现零样本(Zero-shot)地激发这些能力。
Open AI 还透露了一些训练的大概过程:
- 将视觉数据转换为Patches:探讨了如何让生成视觉数据的模型继承LLM通过在互联网规模的数据上训练,来获得广泛的能力的优势。不同于LLMs使用文本标记,Sora模型使用了“视觉补丁”(Visual Patches)。之前的研究已经显示,对于视觉数据模型而言,补丁是一种有效的表现形式。我们发现,对于训练多种类型视频和图像的生成模型而言,补丁是一种高效且可大规模扩展的表现形式。
- 视频压缩网络:训练了一个可以降低视觉数据维度的网络。该网络以原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中进行训练,并随后生成视频。还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。
- 时空潜在Patches:在处理一个压缩后的输入视频时,会提取一系列的“时空补丁”(spacetime patches),这些补丁在这里起到了类似于变换器(Transformer)中的“标记”(tokens)的作用。这种方法同样适用于图像处理,因为从本质上讲,图像就是只有一帧的视频。采用的基于补丁的表示方法,使得Sora能够处理不同分辨率、时长和宽高比的视频和图像。
- 用于视频生成的Scaling transformers:Sora是一种扩散模型;它主要的作用是,给定输入的带有噪声的补丁(以及如文本提示这样的条件信息),Sora被训练来预测并还原出原始的“干净”补丁。更为关键的是,Sora实际上是一个“扩散变换器”(diffusion transformer)。扩散变换器在视频模型中也能有效扩展。随着训练计算量的增加,样本质量显著提高。
一些关于技术原理的补充阅读:
- Open AI官方发布的技术报告,演示视频基本都来自这里:https://openai.com/research/video-generation-models-as-world-simulators
- 这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释:https://x.com/op7418/status/1758822875707154838?s=20
- 宝玉关于生成原理比较通俗的解释:https://x.com/dotey/status/1758726880381862000?s=20
- Sora所有使用的相关技术对应的论文合集:https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e
- JimFan关于Sora训练素材来源的讨论:https://x.com/DrJimFan/status/1758210245799920123?s=20
谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun282643.html