Chat GPT-4 将让您将文本转换为视频,下周即将推出

Chat GPT-3风靡全球,但深度学习语言模型仅生成文本。Braun 将 GPT-3 描述为“多模式”,提供超越文本的世代。布劳恩 3 月 9 日在德国举行的 AI 活动上说:“我们将在下周推出 GPT-4,在那里我们将拥有提供完全不同可能性的多模态模型——例如视频。”

生成多模式内容

ChatGPT-4 可能不仅会生成视频,还会生成图像和音频剪辑。到目前为止,AI 图像生成器与 Chat GPT 等聊天机器人是分开的。但人们对可以生成不同格式内容的下一代模型的能力越来越感兴趣。

“我们谈论的 AI 模型可以同时理解文本、图像和声音,并使用它们来了解周围的世界并与之交互,”Tristan WolffMedium 上写道

微软已经提出了一种以不同格式运行的多模态语言模型,称为 Kosmos-1。

在 Kosmos-1 演示中,AI 可以读取图像和照片。例如,一张显示 10 点 10 分的时钟图片被输入到 AI 中,问题是“现在几点?” 人工智能回答说,“大钟上的 10 点 10 分。”

1_yR7KegTyn4oGh4scOFiqCQ-copy
Kosmos-1 示例
1_ra2rfRBrFUd_zQQoVUVVmA-copy
Kosmos-1 示例

它还可以告诉观众女性留着什么特定类型的发型,或者它可以识别电影海报并可以告诉用户该电影何时上映。

“Kosmos-1 使用文本和图像信息来回答问题,赋予它前所未有的‘认知能力’,”Wolff 补充道。

“iPhone时刻”

在德国举行的“AI in Focus — Digital Kickoff”活动期间,微软德国首席执行官 Marianne Janik 加入了 Braun,她将 ChatGPT 描述为“iPhone 时刻”。她说这不是要更换工作,而是要以与以前不同的方式完成重复性任务。

“中断并不一定意味着失业,”她说。“需要很多专家才能利用人工智能增值。”

Chat GPT 已广受欢迎,成为历史上增长最快的消费者应用程序,用户数达到 1 亿。

同样运营 DALL-E 的 OpenAI 受到其联合创始人埃隆马斯克的批评,埃隆马斯克于 2018 年离开公司。

“OpenAI 最初是作为一个开源(这就是我将其命名为“Open”AI 的原因)、非营利性公司创建的,以作为对谷歌的制衡,但现在它已经成为一个闭源的、最大利润的公司,由微软有效控制”他在 2 月 17 日写道。“这根本不是我想要的。”

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun219838.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年3月14日 下午11:18
下一篇 2023年3月15日 上午7:36

相关推荐