什么是 SneakyPrompt,一种诱骗 GenAI 生成 NSFW cotent 的算法

NSFW-1

研究人员开发了一种新算法来绕过文本图像生成式 AI 的安全过滤器,例如 DALL-E 2 和 Midjourney。该算法称为 SneakyPrompt,可以生成提示,诱骗这些 AI 生成色情、暴力或其他可疑图像。

SneakyPrompt 通过使用无意义的单词和类似于禁忌术语的常规单词来工作。例如,该算法可以生成提示“一个裸体男人骑自行车”,然后使用过滤词的替代词测试 DALL-E 2 和 Stable Diffusion,例如“thwif”表示“naked”,“mowwly”表示“man”。

研究人员发现,SneakyPrompt可以绕过DALL-E 2和Stable Diffusion的安全过滤器,平均成功率分别约为96%和57%。这意味着使用这些 genAI 生成有问题的图像相对容易。

点击此处阅读本报告的深入分析。

我坚信,这项研究的重要性怎么强调都不为过,因为它有可能极大地影响文本到图像生成式人工智能的使用方式。在我看来,至关重要的是要明白,如果这些人工智能可以很容易地纵以产生有问题的图像,它们可能会被武器化以伤害他人。因此,我们必须时刻注意与这些认可机构相关的潜在风险,并采取积极措施,将任何潜在危害降至最低。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun268282.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年11月28日 下午9:32
下一篇 2023年11月28日 下午11:07

相关推荐