破解大模型安全护栏，让ChatGPT回答限制级问题

前情回顾·新技术安全

安全内参8月2日消息，大型语言模型（LLM）采用深度学习技术处理、生成与人类语言相仿的文本。这些模型的训练数据来源包括图书、文章、网站等等。经过大量数据训练，模型可以生成回复、翻译语言、总结文本、回答问题，并执行各种自然语言处理任务。

人们利用这种快速发展的人工智能技术创建了很多开源和闭源工具，例如ChatGPT、Claude和Google Bard。这些工具的益处十分显著，它们可以让任何人都能够搜索无穷无尽的问题，并获得答案。然而，人们越来越担心它们会产生令人反感的内容，带来不利的影响。

卡内基梅隆大学计算机科学学院、CyLab安全与隐私研究所和旧金山人工智能安全中心的研究人员发现了新的大语言模型漏洞，据此提出了一种简单有效的攻击方法，可以让相应的语言模型以极高概率生成令人反感的行为。

卡内基梅隆大学副教授Matt Fredrikson、Zico Kolter，博士生Andy Zou及校友Zifan Wang发表了最新研究成果“对齐语言模型的通用和可转移对抗性攻击”，表示他们发现了一种后缀，只要将它附加到提问中，开源或闭源大语言模型就有更高概率积极响应那些本应拒绝回答的问题。他们的方法不依赖于手动调优，而是通过贪婪和基于梯度的搜索技术自动产生对抗性后缀。

Fredrikson表示：“目前，引导聊天机器人生成令人反感或毒害性内容并不会对人们造成多么严重的直接伤害。我们主要担心，这些模型可能会在无人监督的情况下，于自动系统中扮演更大的角色。随着自动系统成为现实，我们必须确保有可靠的方法阻止它们被此类攻击劫持。”

2020年，Fredrikson和来自CyLab、软件工程研究所的研究人员共同发现了图像分类器漏洞。所谓图像分类器指基于人工智能的深度学习模型，可自动识别照片的主题。研究人员发现，只需对图像进行微小的修改，分类器就会对图像做出不一样的评价，赋予新的分类标签。

Fredrikson、Kolter、Zou和Wang使用类似方法成功攻击了Meta的开源聊天机器人，使这一大语言模型生成了令人反感的内容。对研究结果复盘候，Wang决定尝试对更大、更复杂的大语言模型ChatGPT进行攻击。令他们惊讶的是，攻击成功了。

Fredrikson说：“我们一开始并没有打算攻击专有大语言模型和聊天机器人。但是，我们的研究表明，即使你的闭源模型拥有数万亿参数，人们仍然可以通过研究体量较小、更简单的免费开源模型，学习如何对你的模型发起攻击。”

研究人员将攻击后缀在多种提示词和模型上进行训练，成功让Google Bard和Claud等公共界面，以及Llama 2 Chat、Pythia、Falcon等开源大语言模型引发了令人反感的内容。

Fredrikson表示：“目前，我们还没有令人信服的方法来阻止这种攻击。所以，下一步，我们需要研究如何修复这些模型。”

过去十年，不同类型的机器学习分类器一直遭受类似的攻击，计算机视觉领域也不能幸免。尽管这些攻击仍然颇具风险，但是人们已经通过对攻击本身的研究，提出了很多防御方法。正如Fredrikson所言：“想要开发强大的防御，第一步是理解如何发动这些攻击。”

参考资料：https://techxplore.com/news/2023-07-vulnerability-large-language.html

声明：本文来自安全内参，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

破解大模型安全护栏，让ChatGPT回答限制级问题

微软CEO眼中AI Agent商业模式和安全

我国生成式人工智能的监管框架及主要法律风险识别

Agent视域下的人工智能赋能作战系统