1. GPT-4 可以看到和理解图像
这个多功能机器学习系统最显着的变化是它是“多模态”的,这意味着它可以理解不止一种“模态”的信息。ChatGPT 和 GPT-3 仅限于文本:它们可以读写,但仅此而已(尽管对于许多应用程序来说已经足够了)。
但是,可以为 GPT-4 提供图像,它会处理这些图像以查找相关信息。当然,你可以简单地要求它描述图片中的内容,但更重要的是它的理解不止于此。OpenAI 提供的示例实际上是用一张超大的iPhone 连接器图片来解释这个笑话,但与 Be My Eyes 的合作伙伴关系更有意义揭示。
在 Be My Eyes 的视频中,GPT-4 描述了裙子上的图案、识别植物、解释如何使用健身房的某台机器、翻译标签(并提供食谱)、阅读地图并进行表演许多其他任务表明它确实了解图像中的内容——如果它被问到正确的问题。它知道这件衣服的样子,但它可能不知道它是否适合你的面试。
2. GPT-4 更难被欺骗
尽管今天的聊天机器人做得对,但它们往往很容易误入歧途。一点哄骗可以说服他们,他们只是在解释“坏人工智能”会做什么,或者其他一些让模型说出各种奇怪和坦率地令人不安的事情的小小说。人们甚至在“越狱”提示上进行协作,从而迅速让 ChatGPT 和其他人摆脱困境。
另一方面,GPT-4 已经接受过大量恶意提示的训练——用户在过去一两年中向 OpenAI 提供了这些提示。考虑到这些,新模式在“真实性、可控性和拒绝走出护栏”方面比其前辈要好得多。
按照 OpenAI 的描述,GPT-3.5(为 ChatGPT 提供支持)是新训练架构的“试运行”,他们将从中吸取的教训应用到“前所未有的稳定”的新版本中。他们还能够更好地预测其功能,从而减少意外。
3. GPT-4 有更长的记忆力
这些大型语言模型在数以百万计的网页、书籍和其他文本数据上进行了训练,但当它们真正与用户进行对话时,它们可以“记住”多少是有限的(一个同情)。GPT-3.5 和旧版 ChatGPT 的限制是 4,096 个“令牌”,大约 8,000 个单词,或大约四到五页的书。因此,当事物在其注意力功能中“退回”那么远时,它就会失去对事物的追踪。
GPT-4 的最大代币数为 32,768——即 2^15,如果您想知道为什么这个数字看起来很眼熟的话。这相当于大约 64,000 个单词或 50 页的文字,足以写成一出完整的戏剧或短篇小说。
这意味着在对话或生成文本时,它最多可以记住 50 页左右。所以它会记住你在 20 页的聊天回复中谈到的内容,或者,在写故事或文章时,它可能会提到 35 页前发生的事件。这是对注意力机制和令牌计数如何工作的非常近似的描述,但总体思路是扩展内存和伴随它的功能。
4. GPT-4 更加多语言
人工智能世界由说英语的人主导,从数据到测试再到研究论文的一切都使用英语。但当然,大型语言模型的功能适用于任何书面语言,并且应该在这些语言中提供。
GPT-4 通过证明它能够在 26 种语言(从意大利语到乌克兰语到韩语)中高精度地回答数千个多项选择题,朝着实现这一目标迈出了一步。它最擅长罗曼语和日耳曼语,但也适用于其他语言。
这种对语言能力的初步测试是有希望的,但离全面接受多语言能力还有很长的路要走;测试标准是从英文翻译过来的,选择题并不代表普通话。但它在它并没有真正专门训练的事情上做得很好,这说明 GPT-4 可能对非英语人士更友好。
5. GPT-4 具有不同的“个性”
“可控性”是人工智能中一个有趣的概念,指的是它们按需改变行为的能力。这可能是有用的,例如扮演一个富有同情心的倾听者的角色,也可能是危险的,例如当人们说服模型它是邪恶的或抑郁的时候。
GPT-4 比 GPT-3.5 更原生地集成了可控性,用户将能够将“具有固定冗长、语气和风格的经典 ChatGPT 个性”更改为更适合他们需要的东西。“在界限内”,团队很快指出,这是让模型打破性格的最简单方法。
这可以通过向聊天机器人发送诸如“假装你是桌面角色扮演游戏中的 DM”或“就好像你是接受有线电视新闻采访的人一样回答”的消息来完成。但实际上,您只是在对“默认”GPT-3.5 个性提出建议。现在,开发人员将能够从一开始就融入视角、会话风格、语气或交互方法。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun220109.html