W.A.L.T：谷歌视频生成模型

2023年12月19日下午2:28 • 工具软件

W.A.L.T：谷歌视频生成模型

刚注意到李飞飞团队的这个视频生成模型W.A.L.T，这效果也太好了，感觉比 Pika 1.0 还要好的多。
清晰度和动作都非常好，特别是光剑打斗的那个视频。可惜不开源。

方法有两个关键的设计决策。首先，我们使用因果编码器在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。其次，为了提高记忆和训练效率，我们使用专为联合空间和时空生成建模而定制的窗口注意架构。总而言之，这些设计决策使我们能够在已建立的视频（UCF-101 和 Kinetics-600）和图像（ImageNet）生成基准上实现最先进的性能，而无需使用无分类器指导。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun271424.html

模型生成视频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

ConTorlNetXS：优化版Contorlnet

上一篇 2023年12月19日

Upscale-A-Video视频放大算法

下一篇 2023年12月19日

阿里开源支持视频理解的多模态 LLM Qwen2-VL

阿里开源支持视频理解的多模态 LLM Qwen2-VL 国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的，阿里这就开源了。不过最大的Qwen2-VL 72B 没有开源，只开…

工具软件 2024年9月20日
一亿上下文长度的 LLM：LTM-2-Mini

一亿上下文长度的 LLM：LTM-2-Mini Magic 发布了一个具有 1 亿 Token 上下文的模型 LTM-2-mini。1 亿 Token相当于大约 1000 万行代码…

工具软件 2024年9月20日
Open AI 新的推理模型已经训练完成

Open AI 新的推理模型已经训练完成高质量合成数据的重要性再一次被证明。 Open AI 的逻辑是使用一个足够庞大且非常不经济的推理模型（Strawberry）生产优质合成数…

工具软件 2024年9月20日
工具软件

Polymet ：AI 生成前端界面

Polymet ：AI 生成前端界面 YC 投了一个类似V0 的前端代码生成项目 Polymet。这个比 V0 多了很多很实用的功能对设计的还原也很好。自定义主题色、字体、圆角…

2024年9月20日
工具软件

Morphic Studio：为创建受控视频做的 AI 视频平台

Morphic Studio：为创建受控视频做的 AI 视频平台 Morphic Studio 包括 Canvas 和 Compose 功能，Canvas 是一个全面的故事板和生成…

2024年8月31日
工具软件

The AI Scientist：可以进行自主科学发现和论文撰写的 Agents

The AI Scientist：可以进行自主科学发现和论文撰写的 Agents Sakana AI 宣布开发了一个名为 “The AI Scientist” 的系统，它能够自动化…

2024年8月31日
工具软件

Clapper app：AI 剪辑工具

Clapper app：AI 剪辑工具非常强的网页端 AI 生成和视频剪辑工具。接入了 AI 视频需要的各种 API，包括图片生成、LLM、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日
工具软件

xAI 发布 Grok-2 系列模型

xAI 发布 Grok-2 系列模型老马的 XAI 发布 Grok-2 Beta 版本。在LMSYS的成绩超过了Claude 3.5 Sonnet 和 GPT-4-Turbo。 …

2024年8月31日
工具软件

Jamba 1.5系列模型：非 Transformer 模型首次追上先进模型

Jamba 1.5系列模型：非 Transformer 模型首次追上先进模型 AI21 推出了新的 Jamba 1.5 模型家族，包括 Jamba 1.5 Mini 和 Jamba…

2024年8月31日
工具软件

Ideogram 发布了 2.0 图像生成模型

Ideogram 发布了 2.0 图像生成模型图像生成质量大幅提高，产品易用性改善，最强的文字生成能力。尝试了一下发现真的很离谱，不只是文字生成这么简单，可以实现复杂排版搭配色彩…

2024年8月31日
iPhone相机在室内灯光下闪烁/闪烁：修复

您的 iPhone 相机在室内灯光下闪烁或闪烁太多吗？您用 iPhone 拍摄的视频看起来不太好，因为灯光会亮起。您在视频上看到的闪烁是因为刷新率的差异。这是不正常的，有一些方法可…

2024年6月1日 • 苹果Apple
Google Gemini 登陆 Opera，以下是使用方法

像Microsoft和谷歌这样的大型科技公司正在全力以赴地整合各自的人工智能模型。根据最近的发展，Opera 的 Aria AI 现在可以访问 Google Cloud 的 Gem…

谷歌Google 2024年5月30日
工具软件

User Evaluation：AI 帮助进行用户研究

User Evaluation：AI 帮助进行用户研究 User Evaluation 是一个利用人工智能（AI）来提升用户研究和数据分析的工具。功能特点 AI驱动的转录：支持5…

2024年5月20日
工具软件

Wegic：即时设计团队推出的 AI 网页生成工具

Wegic：即时设计团队推出的 AI 网页生成工具尝试了一下，Wegic 这个 AI 网页生成工具也太好了。通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 IP 都太…

2024年5月20日
工具软件

viva：首个可供使用的 Dit 架构视频生成工具

viva：首个可供使用的 Dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
工具软件

Google I/O 发布会的内容

Google I/O 发布会的内容 Google 紧随 Open AI 开了今年的 I/O 发布会，一个字概括就是全。模型层面所有的指标都在卷，同时也发布了所有现在主流的模型类型。…

2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

DeepSeek 发布 DeepSeek-V2 模型

DeepSeek 发布 DeepSeek-V2 模型 DeepSeeK 上周发布了DeepSeek-V2模型，将现在优秀 LLM 的价格战又抬上了一个新的高度，百万 Token 输…

2024年5月20日
Indigo关于发布会预测的整理

Indigo关于发布会预测的整理 GPT-4 的新版应该会按照参数规模不同分化成多个版本，这个和 Claude 还有 Gemini 多版本的逻辑一样；前两周出现在 llmsys …

工具软件 2024年5月20日
Simulon：混合现实 3D 模型软件

Simulon：混合现实 3D 模型软件只需要下载app扫描周围环境，然后选择对应的模型。之后等几分钟就会渲染好跟现实环境融合的MR视频。没有官网只有申请测试的表单。 &nbsp…

工具软件 2024年5月10日
Synthesia：EXPRESS-1 模型驱动的数字人

Synthesia：EXPRESS-1 模型驱动的数字人 EXPRESS-1 模型驱动，以实现逼真的头像表现。通过训练模型理解我们说什么以及我们如何说的微妙关系，表达力化头像现在可…

工具软件 2024年5月10日
工具软件

生数科技发布Vidu 视频生成模型

生数科技发布Vidu 视频生成模型生数科技不声不响整了个大活。发布 Vidu 视频生成模型，支持长达 16 秒 1080P 视频直接生成。从演示视频来看一致性、运动幅度都达到了…

2024年5月10日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

微软发布 phi-3-mini 微型模型

微软发布 phi-3-mini 微型模型微软发布 phi-3-mini 模型，4 位量化之后可以部署在 iPhone 14 上，只占用 1.8G 内存，每秒输出 12 个 Tok…

2024年5月10日
Captions：AI 自动视频剪辑工具

Captions：AI 自动视频剪辑工具 Captions 这个产品可以自动识别超长视频的有价值判断并且自动剪辑成多条适合传播的短视频。生成的短视频可以选择对应的字幕模板，并且支…

工具软件 2024年5月10日

W.A.L.T：谷歌视频生成模型

相关推荐