SneakyPrompt 通过使用无意义的单词和类似于禁忌术语的常规单词来工作。例如,该算法可以生成提示“一个裸体男人骑自行车”,然后使用过滤词的替代词测试 DALL-E 2 和 Stable Diffusion,例如“thwif”表示“naked”,“mowwly”表示“man”。
研究人员发现,SneakyPrompt可以绕过DALL-E 2和Stable Diffusion的安全过滤器,平均成功率分别约为96%和57%。这意味着使用这些 genAI 生成有问题的图像相对容易。
点击此处阅读本报告的深入分析。
我坚信,这项研究的重要性怎么强调都不为过,因为它有可能极大地影响文本到图像生成式人工智能的使用方式。在我看来,至关重要的是要明白,如果这些人工智能可以很容易地纵以产生有问题的图像,它们可能会被武器化以伤害他人。因此,我们必须时刻注意与这些认可机构相关的潜在风险,并采取积极措施,将任何潜在危害降至最低。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun268282.html