Open AI 发布 Sora 视频生成模型

2024年2月19日下午9:57 • 工具软件

Open AI为狙击谷歌发布了他们的视频生成模型Sora，这个视频模型可以生成长达1分钟的视频，在时长、稳定性、一致性和运动幅度上全部碾压现在所有的视频生成模型。

Sora的视频生成能力：

Sora 能够生成提供图像和提示作为输入的视频。
Sora 还能够在时间上向前或向后扩展视频。比如多个视频都是从生成的视频片段开始向后延伸的。因此，几个视频的开头都不同，但所有视频的结局都是相同的。使用此方法向前和向后扩展视频以产生无缝的无限循环。
扩散模型启用了多种根据文本提示编辑图像和视频的方法。将其中一种方法 SDEdit, 32 应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。
还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
Sora 还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达 2048×2048。

Sora还有一些其他的特征：

3D 一致性： Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。
长期连贯性（Long-range coherence）和物体持久性（Object permanence）：是视频生成系统面临的重大挑战之一，特别是在采样长视频时维持时间上的连续性。Sora通常能够有效地处理短期和长期依赖关系，尽管并不总是如此。
与世界互动：Sora 有时可以用简单的方式模拟影响世界状况的行动。例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。
模拟数字世界：Sora同样能够模拟人工过程，例如视频游戏。在Minecraft中，Sora可以同时控制玩家的基本策略，还能高保真度地渲染游戏世界及其动态变化。通过使用提及“Minecraft”的字幕提示Sora，可以实现零样本（Zero-shot）地激发这些能力。

Open AI 还透露了一些训练的大概过程：

将视觉数据转换为Patches：探讨了如何让生成视觉数据的模型继承LLM通过在互联网规模的数据上训练，来获得广泛的能力的优势。不同于LLMs使用文本标记，Sora模型使用了“视觉补丁”（Visual Patches）。之前的研究已经显示，对于视觉数据模型而言，补丁是一种有效的表现形式。我们发现，对于训练多种类型视频和图像的生成模型而言，补丁是一种高效且可大规模扩展的表现形式。
视频压缩网络：训练了一个可以降低视觉数据维度的网络。该网络以原始视频作为输入，并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中进行训练，并随后生成视频。还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。
时空潜在Patches：在处理一个压缩后的输入视频时，会提取一系列的“时空补丁”（spacetime patches），这些补丁在这里起到了类似于变换器（Transformer）中的“标记”（tokens）的作用。这种方法同样适用于图像处理，因为从本质上讲，图像就是只有一帧的视频。采用的基于补丁的表示方法，使得Sora能够处理不同分辨率、时长和宽高比的视频和图像。
用于视频生成的Scaling transformers：Sora是一种扩散模型；它主要的作用是，给定输入的带有噪声的补丁（以及如文本提示这样的条件信息），Sora被训练来预测并还原出原始的“干净”补丁。更为关键的是，Sora实际上是一个“扩散变换器”（diffusion transformer）。扩散变换器在视频模型中也能有效扩展。随着训练计算量的增加，样本质量显著提高。

一些关于技术原理的补充阅读：

Open AI官方发布的技术报告，演示视频基本都来自这里：https://openai.com/research/video-generation-models-as-world-simulators
这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释：https://x.com/op7418/status/1758822875707154838?s=20
宝玉关于生成原理比较通俗的解释：https://x.com/dotey/status/1758726880381862000?s=20
Sora所有使用的相关技术对应的论文合集：https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e
JimFan关于Sora训练素材来源的讨论：https://x.com/DrJimFan/status/1758210245799920123?s=20

谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun282643.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何使用 NotebookLM

上一篇 2024年2月19日下午9:56

谷歌发布Gemini 1.5 Pro和开放 Ultra 1.0模型

下一篇 2024年2月19日下午9:58

OpenAI o1 是什么？如何运作的

https://u.jd.com/daBByyr https://u.jd.com/d67YrPi OpenAI o1 可以通过复杂的任务进行推理，并解决比以前的科学、编码和数学模…

工具软件 2024年9月20日
工具软件

Unriddle：AI 论文写作工具

Unriddle：AI 论文写作工具 Y Combinator 支持的研究工具，旨在加速研究人员和学生阅读和撰写研究论文的过程，提供 AI 辅助的信息检索、内容理解和写作功能，支持…

2024年9月20日
工具软件

Clockwise：基于 AI 的日历工具

Clockwise：基于 AI 的日历工具 Clockwise 是一个基于 AI 的时间管理日历工具，旨在通过智能调度帮助个人和团队更高效地管理时间。它能够像魔术一样工作，为团队…

2024年9月20日
工具软件

Tolan：人格化的 ChatBot

Tolan：人格化的 ChatBot 一个友好的小外星人，你可以和他谈论任何事情，他甚至可以帮助你想象你的想法。看起来支持类似实时语音能力，小外星人的形象也可以自定义非常可爱

2024年9月20日
阿里开源支持视频理解的多模态 LLM Qwen2-VL

阿里开源支持视频理解的多模态 LLM Qwen2-VL 国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的，阿里这就开源了。不过最大的Qwen2-VL 72B 没有开源，只开…

工具软件 2024年9月20日
一亿上下文长度的 LLM：LTM-2-Mini

一亿上下文长度的 LLM：LTM-2-Mini Magic 发布了一个具有 1 亿 Token 上下文的模型 LTM-2-mini。1 亿 Token相当于大约 1000 万行代码…

工具软件 2024年9月20日
Open AI 新的推理模型已经训练完成

Open AI 新的推理模型已经训练完成高质量合成数据的重要性再一次被证明。 Open AI 的逻辑是使用一个足够庞大且非常不经济的推理模型（Strawberry）生产优质合成数…

工具软件 2024年9月20日
工具软件

PackPack：保存和收集内容 AI 整理

PackPack：保存和收集内容 AI 整理 PackPack是一个为用户提供一键保存网页内容的浏览器扩展插件。用户可以通过扩展按钮快速保存页面、捕获帖子、通过悬停图片气泡保存图片…

2024年9月20日
Meta 如何微调：关注有效数据集

Meta 如何微调：关注有效数据集 Meta AI 团队关于如何微调 LLM 的第三篇文章，主要探讨如何通过精细化数据集来提高大型语言模型（LLMs）的性能，包括全参数精细化（F…

工具软件 2024年9月20日
工具软件

Polymet ：AI 生成前端界面

Polymet ：AI 生成前端界面 YC 投了一个类似V0 的前端代码生成项目 Polymet。这个比 V0 多了很多很实用的功能对设计的还原也很好。自定义主题色、字体、圆角…

2024年9月20日
工具软件

AdvancedLivePortrait：自定义面部表情动画

AdvancedLivePortrait：自定义面部表情动画 Live Portrait 被玩出花了。AdvancedLivePortrait 这个插件可以让你手动编辑人脸图片的表…

2024年9月20日
工具软件

Fluxgym：FLUX Lora 训练工具

Fluxgym：FLUX Lora 训练工具 Fluxgym：一个非常简单的傻瓜式 FLUX Lora 训练工具。最低只需要12G显存就可以训练。后端还是用的Kohya脚本。使用方…

2024年9月20日
工具软件

Replit 发布了 AI 编程工具 Replit Agent

Replit 发布了 AI 编程工具 Replit Agent Replit 发布了 AI 编程工具 Replit Agent。这玩意太强了，对于编程零基础的人非常有用。 Clua…

2024年9月20日
Project Sid：1000 个 Agent 组成的社会

Project Sid：1000 个 Agent 组成的社会这玩意太强了。一千个 Agent 在《我的世界》游戏里自主运行和发展：会根据领导人的不同发展出不同的社会政策。发现…

工具软件 2024年9月20日
AdSense全新广告意向条状标签格式即将发布，您符合自动启用该格式的条件

我们非常高兴地宣布，广告意向条状标签这一最新的意向驱动型搜索广告格式即将发布。继广告意向链接和广告意向锚点链接获得成功之后，广告意向条状标签的推出让您有更多方式来展示与用户高度相关…

2024年9月4日 • 工具软件
VMware虚拟机安装fnnas飞牛私有云+详细教程 VMware Workstation部署飞牛NAS手册

VMWare虚拟机保姆级部署fnnas飞牛私有云准备下载： 1、https://support.broadcom.com/group/ecx/productdownloads?s…

2024年9月2日 • 工具软件
工具软件

Respired：社交媒体批量管理

Respired：社交媒体批量管理一个针对初创企业的 AI 驱动的社交媒体管理平台，通过分析、内容创建、多渠道调度和性能分析等功能，帮助企业高效地管理社交媒体，多渠道社交媒体管…

2024年8月31日
工具软件

Morphic Studio：为创建受控视频做的 AI 视频平台

Morphic Studio：为创建受控视频做的 AI 视频平台 Morphic Studio 包括 Canvas 和 Compose 功能，Canvas 是一个全面的故事板和生成…

2024年8月31日
Deep Live Cam：单图实现实时直播换脸

Deep Live Cam：单图实现实时直播换脸前几天引起人们对 AI 写实能力警惕的另一个项目，只需要一张图片就可以实现实时的直播换脸。从演示来看角度大的话还是会穿帮，另外换…

工具软件 2024年8月31日
Figure 发布 Figure 02 人形机器人

Figure 发布 Figure 02 人形机器人 Figure 上周发布了 Figure 02 人形机器人，他们说这是世界上最先进的 AI 硬件。2023 年 2 月他们就完成了…

工具软件 2024年8月31日
工具软件

FLUX 的周边生态发展迅速

FLUX 的周边生态发展迅速前段时间由于 SD3 的问题，开源的图片生态发展一度停滞，值得关注的新项目和模型几乎没有。 FLUX 上周发布后这个态势被快速改变了，由于其优秀的图片…

2024年8月31日
Napkin：文本转换为信息图表

Napkin：文本转换为信息图表 Napkin AI 是一个将文本内容转换为视觉图像的工具，旨在通过生成图表、流程图等视觉元素来加速和提高业务故事讲述的效果。使用 Napkin …

工具软件 2024年8月31日
Trellis AI：从非结构化内容中提取数据

Trellis AI：从非结构化内容中提取数据 Trellis AI 引擎能够将复杂的数据源，如金融文档、电话和邮件，高效地转换成结构化的 SQL 格式，以便数据和运营团队使用。 …

工具软件 2024年8月31日
Sparkle：用 AI 自动整理文件

Sparkle：用 AI 自动整理文件使用 AI 创建独特的文件夹系统，并将每个新文件（以及所有旧文件）整理到正确的位置。它可以管理您的下载、桌面和文档文件夹。 &…

工具软件 2024年8月31日
工具软件

Clapper app：AI 剪辑工具

Clapper app：AI 剪辑工具非常强的网页端 AI 生成和视频剪辑工具。接入了 AI 视频需要的各种 API，包括图片生成、LLM、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日

Open AI 发布 Sora 视频生成模型

相关推荐