ChatGPT-4 性能下降，ChatGPT-3.5 改进？

2023年7月20日下午8:39 • 工具软件

OpenAI的人工智能聊天机器人以ChatGPT-4与ChatGPT-3.5的形式出现，用户可能已经注意到自推出以来的变化。现在，来自斯坦福大学和加州大学伯克利分校的研究人员在 4 年 2023 月对 GPT-2023 的性能进行了基准测试，并在 <> 年 <> 月对模型的性能进行了基准测试，从而深入了解了 AI 性能的变化。

随着人工智能（AI）的视野不断扩大，GPT-3.5和GPT-4等大型语言模型（LLM）的影响力正变得越来越占主导地位。虽然这些计算巨头重新定义了人工智能的边界，但它们随着时间的推移而发展的方式对用户和开发人员来说都是一个难题。

聊天GPT性能的变化

通常，LLM 中的次要更新可能会触发显著的性能变化。斯坦福大学和加州大学伯克利分校的研究人员对 3.5 年 4.2023 月和 2023 年 <> 月的 GPT-<> 和 GPT-<> 版本进行了比较研究。他们仔细检查了自己在四个不同任务中的表现：数学问题解决、处理敏感查询、生成代码和视觉推理。结果令人着迷：即使在很短的时间内，相同的LLM的性能也可以发生巨大变化。

引入LLM的更新应该改进其功能，但现实情况更为复杂。例如，GPT-4 识别素数的能力从 97 年 6 月令人印象深刻的 2023.2% 准确率下降到 4 年 2023 月的 3.5%。相反，GPT-<>.<> 在此期间显着提高了其在同一任务中的性能。因此，更新对这些模型的影响远非可预测，这突出表明需要保持警惕的监测。

法学硕士更新

LLM更新的不确定性对它们集成到更大的工作流程中构成了重大挑战。LLM 对提示的响应突然变化可能会破坏下游管道并使结果的再现复杂化。驾驭这种不可预测性对开发人员和用户来说都是一个相当大的挑战。

这项研究强调了持续监测法学硕士质量的迫切需要。由于旨在增强模型某些方面的更新可能会无意中影响其在其他地方的性能，因此及时了解这些模型的功能至关重要。

聊天GPT-4 vs 聊天GPT-3.5

目前的研究没有充分监测广泛使用的LLM服务（如GPT-4和GPT-3.5）随时间推移的纵向漂移。这种对性能变化的监控正在成为在快速发展的技术环境中部署机器学习服务的一个重要方面。

LLM的性能在不同的任务中可能会有很大差异。例如，在 2023 年 4 月，GPT-4 比 3 月更不愿意响应敏感查询，并且 GPT-5 和 GPT-<>.<> 在代码生成中都显示出格式错误的数量增加。

像GPT-3.5和GPT-4这样的LLM的行为可以在短时间内发生重大变化。随着这些模型的不断发展，了解它们在不同任务中的性能并衡量更新对其能力的影响变得更加重要。当务之急是对这些模型进行持续监控和评估，以确保其稳定性和可靠性。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun243969.html

LLM lt 性能

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何使用 Llama 2，Meta最新的 AI 模型

上一篇 2023年7月19日下午9:45

Llama 2 vs ChatGPT 3.5 开源 AI 是前进的方向吗？

下一篇 2023年7月20日

Jan：本地LLM聊天软件

Jan：本地LLM聊天软件一个全平台的本地 LLM 聊天软件Jan，支持自动下载模型以及非常详细的设置。懒得配置 Ollama 的可以试试。除了支持本地模型以外，在线的模型可…

工具软件 2024年5月10日
Opera 成为第一个集成本地 AI 模型的主要浏览器

Opera 正在将对 150 种本地 LLM（大型语言模型）变体的支持集成到 Opera One（该公司的 AI 集成浏览器）的开发人员流中。添加对 AI 的实验性本地支持是浏览器…

2024年4月6日 • 工具软件
最新资讯

全球首款单插槽薄型英特尔 ARC A380 GPU

全球首款单插槽薄型英特尔 ARC A380 GPU 如果你是一个狂热的游戏玩家，或者喜欢设计和构建紧凑型PC版本，你可能面临着找到一个适合你设置的强大显卡的挑战。Arc A380 …

2024年3月27日
工具软件

Dragon’s Dogma 2 问题，Gamers Nexus 检查的基准测试

Dragon’s Dogma 2 问题，Gamers Nexus 检查的基准测试《龙之信条2》正在经历影响游戏玩法的重大技术问题，新的基准测试非常详细地突出了这些问题…

2024年3月26日
显示 Windows 11 性能叠加 [如何]

密切关注您的性能，尤其是在资源密集型任务期间非常重要，为此，您可以使用 Windows 11 性能叠加。如果您不熟悉此功能，本指南将向您展示您需要了解的有关它的所有信息。如何在…

2024年3月20日 • Win 11
工具软件

提升本地 AI 大型语言模型（LLM）的智能

提升本地 AI 大型语言模型（LLM）的智能在快速发展的自然语言处理领域，出现了一种新的方法来提高大型语言模型（LLM）的本地AI性能、智能和响应准确性。通过将代码分析和执行…

2024年3月17日
工具软件

什么是LangChain，如何使用它？

什么是LangChain，如何使用它？如果您一直在寻找可以使您的工作更顺畅、项目更令人印象深刻的工具。您可能听说过围绕大型语言模型（LLM）的嗡嗡声，以及它们改变我们与技术交…

2024年3月15日
工具软件

如何在 Ubuntu Linux 中安装 Beautifulsoup Python 模块

步骤 1：安装 Python PIP（如果尚未安装）安装 Python 库的最简单和最好的方法是使用其名为 PIP 的包管理器。因此，如果您已经安装了该设备，则可以跳过此步骤。 …

2024年3月13日
Linux命令

在 Ubuntu Linux 中安装适用于 Python 的 LXML 库

Python LXML 安装步骤 1. 从 Ubuntu 软件包更新开始：让我们在 Ubuntu 上运行 system update 命令，以确保系统软件包是最新的，并且我们的系…

2024年3月13日
如何擦除可用空间以提高性能

最近，我们看到越来越多的 Windows 用户试图擦除 PC 上的可用空间以提高性能。虽然这种方法没有错，但它通常不能达到预期的目的。可用空间是磁盘上不保存任何活动文件的存储空间…

2024年3月9日 • 工具软件
工具软件

Notdiamond-0001：自动选择LLM模型

Notdiamond-0001：自动选择LLM模型 Notdiamond-0001这个项目可以自动帮你选择将用户的问题发送给GPT-4还是GPT-3.5，从而大幅降低调用模型的成本…

2023年12月19日
工具软件

LLM Visualization

LLM Visualization 这个 LLM 算法的可视化演示太强了，之前我们看到的都是 2D 的，这个是 3D 的。而且他完整的展示了整个 LLM不同模块内部的运作机制和各模…

2023年12月19日
工具软件

大型语言模型简介：它们是什么以及它们如何工作？

大型语言模型（LLM）已成为不断发展的技术世界中的一项革命性发展。大型语言模型具有多种应用，从自动完成句子等简单任务到翻译语言、生成创意内容，甚至参与类似人类的对话等复杂任务。…

2023年12月5日
使用 XAMPP 在 Visual Studio Code 中运行 PHP 文件：分步指南

如何使用 xampp 在 Visual Studio Code 中运行 PHP 文件 1.安装 Visual Studio Code 由于我们在本教程中使用 VScode 创建 P…

2023年12月3日 • 工具软件
工具软件

LLM AI 代理是什么，如何使用它们？

由大型语言模型（LLM）提供支持的 LLM AI 代理代表了人工智能领域的一个新领域。这些系统利用LLM的能力来推理问题，制定解决问题的计划，并在执行过程中出现不可预见的问题时…

2023年12月1日
工具软件

开源大型语言模型与专有（LLM）的优势

随着 Huggingface 上可用的大型语言模型（LLM）数量的增加，关注专有模型和开源模型之间的区别对于 AI 爱好者和企业理解至关重要。专有 LLM 由有使用限制的公司…

2023年11月28日
工具软件

固定它就可以了！Google 为 Chrome Canary 推出可固定的性能面板

Google 正在对 Chrome Canary 中的“性能”面板进行一些重大更改，使用户能够更轻松地管理浏览器的性能并改善浏览体验。谷歌对它做了一些改进。首先，他们已将“性能”…

2023年11月23日
开源代码大模型DeepSeek Coder

DeepSeek Coder 由一系列代码语言模型组成，每个模型都在 2T 令牌上从头开始训练，其中 87% 是英文和中文的代码，13% 是自然语言。我们提供各种尺寸的代码模型，范…

工具软件 2023年11月23日
最新资讯

新推出的 LLM Inflection-2 声称其性能优于谷歌的旗舰 PaLM 2，仅次于 GPT4

Inflection AI 宣布发布 Inflection-2，这是一种新的大型语言模型（LLM），是当今世界上仅次于 OpenAI 的 GPT4 的第二大 LLM。什么是LL…

2023年11月23日
工具软件

高通推出骁龙 7 Gen 3

高通推出了其最新的移动平台Snapdragon 7 Gen 3，与以前的版本相比，CPU性能提高了15%，GPU性能提高了50%。该平台的处理速度高达 2.63Ghz，与以前的型…

2023年11月19日
苹果Apple

Apple M3 MacBook Pro拆解揭示了其内部工作原理

Apple 新款 M3 MacBook Pro 系列笔记本电脑带来了计算技术的重大进步，标志着个人计算的新时代。在这些设备中引入 M3、M3 Pro 和 M3 Max 芯片是一次飞…

2023年11月13日
苹果Apple

新款 Apple MacBook Pro M3 14 英寸笔记本电脑 1,599 美元起

新款 MacBook Pro 14 英寸搭载最新的 Apple M3 芯片，是 Apple 今天在 Apple 活动期间推出的最新产品之一。最新的 MacBook Pro M3 系…

2023年10月31日
工具软件

催眠 AI 以使用自然语言绕过现有规则或 LLM 安全性

大型语言模型（LLM）在过去几年中呈爆炸式增长，但它们的安全性如何，它们的响应能否纵？IBM 仔细研究了大型语言模型带来的潜在安全风险，以及可能出于恶意原因操纵它们的策略。大型语…

2023年10月30日
Llemma：数学 LLM

Llemma：数学 LLM 开源 LLM，用于在最多 200B 个数学文本标记上进行训练的数学LLM。Llemma 34B 的性能接近 Google 的 Minerva 62B，…

工具软件 2023年10月23日
将 LLM 当做操作系统

将 LLM 当做操作系统大型语言模型（LLM）在扩展对话和文档分析等任务中存在上下文窗口有限的局限性。为了解决这个问题，作者提出了虚拟上下文管理，这是一种受传统操作系统的分层存储…

工具软件 2023年10月23日

ChatGPT-4 性能下降，ChatGPT-3.5 改进？

聊天GPT性能的变化

法学硕士更新

聊天GPT-4 vs 聊天GPT-3.5

相关推荐