W.A.L.T:谷歌视频生成模型

W.A.L.T:谷歌视频生成模型

刚注意到李飞飞团队的这个视频生成模型W.A.L.T,这效果也太好了,感觉比 Pika 1.0 还要好的多。
清晰度和动作都非常好,特别是光剑打斗的那个视频。可惜不开源。

方法有两个关键的设计决策。首先,我们使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了提高记忆和训练效率,我们使用专为联合空间和时空生成建模而定制的窗口注意架构。总而言之,这些设计决策使我们能够在已建立的视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准上实现最先进的性能,而无需使用无分类器指导。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun271424.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年12月19日
下一篇 2023年12月19日

相关推荐