阿里开源支持视频理解的多模态 LLM Qwen2-VL

阿里开源支持视频理解的多模态 LLM Qwen2-VL

国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的,阿里这就开源了。不过最大的Qwen2-VL 72B 没有开源,只开源了比较小规模的 2B 和 7B。

Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点:

  1. 读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
  2. 理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
  3. 能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
  4. 多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

模型架构上值得注意的内容:

  • Qwen2-VL 在架构上的一大改进是实现了对原生动态分辨率的全面支持。与上一代模型相比,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。
  • 架构上的另一重要创新则是多模态旋转位置嵌入(M-ROPE)。传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun299487.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2024年9月20日
下一篇 2024年9月20日

相关推荐