新越狱绕过了 ChatGPT-4、Claude、Gemini 和 LLaMA 上的 AI 过滤
与往常一样,当任何新的操作系统或设备发布时,技术社区总是有兴趣找到规避希望限制访问的公司实施的任何安全或限制的方法。最近,一种新颖的越狱技术被开发出来,挑战了高级人工智能语言模型的内容过滤系统,包括 ChatGPT-4、Claude、Gemini 和 LLaMA。
对于那些不熟悉该术语或概念的人来说,越狱也称为提示黑客攻击或提示注入,涉及操纵人工智能以提供它被编程为隐瞒的响应,例如非法活动的指令。这种新的 AI 越狱方法利用 ASCII 艺术(一种使用字符的表示形式)来掩盖通常被 AI 安全协议审查的触发词。华盛顿大学和芝加哥大学的研究人员已经证明,这种技术可以有效地绕过几种最先进的语言模型的安全措施。
如何越狱ChatGPT
这一发现的核心是来自华盛顿大学和芝加哥大学的团队。他们发现,ASCII艺术是一种创造性的表达形式,使用ASCII标准的字符来形成图像或文本,可以以一种从未想过的方式使用。通过将单词转换为ASCII图像,它们可以使AI系统响应它们被编程为避免的内容。对于那些依赖人工智能过滤掉不需要的材料的人来说,这是一个重大问题。
您可能熟悉越狱或提示注入,其中用户操纵 AI 做它不打算做的事情,例如为非法活动提供指令。ASCII 艺术方法是一个新的转折点,它利用了 AI 系统中的一个盲点:它们不会将 ASCII 艺术识别为应该触发内容过滤器的文本。
ASCII 艺术越狱 AI
如研究中所述,使用 ASCII 艺术越狱 AI 模型的过程涉及几个关键步骤。以下是此过程的要点概述:
- 识别敏感词:确定通常由大型语言模型 (LLM) 筛选或限制的词或短语。
- 创建 ASCII 艺术:将这些敏感字词或短语转换为 ASCII 艺术。ASCII 艺术使用字母、数字和符号等字符来直观地表示对象或文本,在本例中为敏感词。
- 制作提示:将 ASCII 艺术合并到用于 LLM 的提示中。此步骤可能涉及在上下文或问题中构建 ASCII 艺术,该上下文或问题会向模型的安全过滤器隐藏其真正用途。
- 旁路过滤器:
- ASCII 艺术有效地屏蔽了模型自动内容审核系统中的敏感内容。
- 由于这些模型主要设计用于解释语义内容的标准字母数字文本,因此 ASCII 艺术通过以非标准视觉格式呈现内容来绕过这些过滤器。
- 解释和响应:将精心制作的提示提交给 LLM。该模型尝试解释 ASCII 艺术,如果无法将其识别为过滤的单词或短语,则继续根据提示的其余部分生成响应。
- 解码 ASCII 艺术(对于某些方法可选):在更复杂的方法中,提示中还可能包含用于将 ASCII 艺术解码回其原始敏感词或短语的指令。这更多的是测试模型处理和解释 ASCII 艺术的能力,而不是越狱过程本身的一个步骤。
- 分析结果:
- 评估模型的响应,以确定 ASCII 技术在规避安全机制方面的有效性。
- 此分析有助于优化 ASCII 艺术或周围提示,以便更有效地绕过内容限制。
- 迭代优化:根据结果,进一步优化 ASCII 艺术表示和提示结构,以提高成功绕过模型限制的机会。
该技术突出了一种挑战 LLM 的内容审核和安全对齐机制的新方法,利用视觉数据解释和语义文本理解之间的差距。值得注意的是,这些方法引发了重大的道德和安全问题,需要不断努力加强人工智能安全措施。
该漏洞已在多个 AI 模型上进行了测试和确认,包括 ChatGPT-4 等最新模型。这些模型处于人工智能技术的最前沿,但它们却被这种复杂的技巧所吸引。这是一个明显的迹象,即使是最先进的人工智能系统也有可以利用的弱点。早期的越狱尝试经常被人工智能的安全功能所挫败,这些功能不断更新以捕捉新的技巧。
但事实证明,对于这些系统来说,ASCII艺术是一个更加难以捉摸的挑战,这表明人工智能开发人员与那些希望绕过人工智能限制的人之间的斗争正在升温。为了解决这个问题,很明显,需要训练 AI 模型才能将 ASCII 艺术识别为文本。这意味着用于开发这些系统的训练数据必须扩展以包括这些类型的表示。这是确保人工智能系统安全的关键一步。
这一发现的影响不仅仅是技术问题。它触及了对人工智能语言模型中审查制度和安全性的更广泛担忧。随着人工智能越来越融入我们的日常生活,保护这些系统的需求变得更加迫切。这种新的越狱方法的发现为人工智能社区敲响了警钟,要求他们在人工智能技术的开发和维护中保持警惕。
这种使用 ASCII 艺术绕过 AI 内容过滤器的新方法暴露了高级 AI 语言模型安全措施的一个关键弱点。它强调了不断改进人工智能训练和安全协议的必要性。此外,它还凸显了人工智能领域的技术进步和道德考虑之间的微妙平衡。随着我们向前迈进,必须牢记这些问题,以确保人工智能在不影响安全和安保的情况下服务于更大的利益。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun288285.html