Sora是什么,怎么工作的

Sora在多个方面重新定义了AI视频生成模型的标准:

  • a.它将视频时长从当前的5-15秒,直接提升到了1分钟,这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看,如果需要,超过1分钟毫无任何悬念。
  • b.它可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性。
  • c.不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。
  • d.它是扩散模型, 更是 扩散模+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。

Sora是一个基于扩散模型(Diffusion Model)的视频模型,但是它是一个扩散 Transformer模型,Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过GPT的能力,使模型更加准确地遵循用户的文本指令生成视频。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun282538.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2024年2月18日 上午10:24
下一篇 2024年2月18日

相关推荐