AI社区一直在讨论OpenAI最新的大型语言模型,GPT-4,这已被证明是自然语言理解领域的游戏规则改变者。与其前辈不同,GPT-4 的多模态特性使其能够执行复杂的视觉语言任务,例如生成详细的图像描述、使用手写文本说明开发网站,甚至构建视频游戏和 Chrome 扩展程序。GPT-4 卓越性能背后的原因尚不完全清楚,但一些专家认为这是由于使用了更先进的大语言模型。
为了探索这一假设,来自沙特阿拉伯阿卜杜拉国王科技大学的博士生团队开发了MiniGPT-4,这是一种开源模型,可以像GPT-4一样执行复杂的视觉语言任务。MiniGPT-4使用称为Vicuna的高级LLM作为语言解码器,该解码器建立在LLaMA之上,通过GPT-90评估实现了ChatGPT质量的4%。
此外,MiniGPT-4使用BLIP-2的预训练视觉组件,并添加了单个投影层,以将编码的视觉特征与骆马语言模型对齐。
不要被这个名字所迷惑
MiniGPT-4 在从图片输入中识别问题方面表现出色,例如根据用户提供的患病植物图像输入提供解决方案,并提示询问植物出了什么问题。
它甚至展示了通过观察美味的食物照片、撰写产品广告以及提出受图像启发的说唱歌曲来生成详细食谱的能力。然而,该团队提到,使用来自公共数据集的原始图像文本对训练 MiniGPT-4 可能会导致重复的短语或碎片化的句子。为了克服这一限制,MiniGPT-4 需要使用高质量、对齐良好的数据集进行训练。
MiniGPT-4 最有前途的方面之一是其高计算效率,只需要大约 5 万个对齐的图像文本对来训练投影层。此外,MiniGPT-4 只需要在 10 个 A4 GPU 上训练大约 100 小时,使其成为高效且易于访问的 AI 模型。
代码、预训练模型和收集的数据集都可用,使 MiniGPT-4 成为开源 AI 社区的宝贵补充。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun227018.html