今天为大家介绍一篇由中关村实验室和清华大学共同完成的大模型安全综述“Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems”,该综述从系统视角出发来梳理大模型安全相关工作,围绕输入、模型、输出、工具链四个核心系统模块总结相关安全风险与防御策略,帮助大模型从业者快速定位具体安全威胁所涉及的系统模块和其防御手段。

arXiv链接:https://arxiv.org/abs/2401.05778

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model

Tianyu Cui*, Yanling Wang*, Chuanpu Fu, Yong Xiao, Sijia Li,Xinhao Deng, Yunpeng Liu, Qinglin Zhang, Ziyi Qiu, Peiyang Li, Zhixing Tan,Junwu Xiong, Xinyu Kong, Zujie Wen, Ke Xu, Qi Li

* Co-led the survey

01 背景

近年来,大语言模型(LLM)掀起了自然语言处理(NLP)领域的一场革新。模型参数和预训练语料库的扩大,赋予LLM在各类NLP任务中卓越的能力。尽管LLM系统取得了显著成功,但它们有时也可能违背人类的价值观和偏好。此外,精心设计的对抗性提示可能引发LLM产生有害响应。即使没有遭受对抗性攻击,当前的LLM也可能生成不真实、有毒、有偏见甚至非法的内容。这些不良内容可能被滥用,产生不良的社会影响。因此,学术界和工业界有许多工作致力于缓解这些问题。

LLM系统的关键组成模块包括:用于接收用户请求的输入模块,在大量数据集上训练得到的语言模型模块,用于开发和部署的工具链模块,以及用于导出LLM生成内容的输出模块。该综述围绕这些关键系统模块梳理大模型安全风险与相关防御策略。

图1:LLM系统核心模块以及其中的安全风险

02 LLM系统安全风险分类体系

随着LLM系统的日益普及,与LLM系统相关的风险也引起了人们的关注。这篇综述对LLM系统的各个模块中的安全风险进行了分类,构建了包含44个风险子类的LLM系统安全风险分类体系

图2:LLM系统安全风险分类体系

2.1 大模型输入模块的风险问题

图3:输入模块NSFW提示语和对抗性提示语事例

输入模块是LLM系统在用户-模型对话期间向用户开放的窗口。通过该模块,用户可以将请求输入系统。当输入提示语包含有害信息时,LLM系统可能面临生成有害内容的风险。

Not-Suitable-for-Work(NSFW)提示语:当用户输入的提示语包含不安全主题时,LLM可能会生成无礼和有偏见的内容,这些不安全的提示语包含涉及侮辱、不公平、犯罪、敏感政治话题、身体伤害、有害心理健康、侵犯隐私、违背伦理等方面的内容。

对抗性提示语:对抗性提示语是LLM中的一种新型威胁,通过设计对抗性输入来引发不希望的模型行为。与NSFW提示语不同,这些对抗性提示语通常具有明确的攻击意图,包含目的劫持(Goal Hijacking)、提示语泄漏(Prompt Leaking)、越狱(Jailbreaking)。

2.2 语言模型模块的风险

图4:关于训练数据和语言模型的安全问题

隐私泄漏:为了涵盖广泛的知识并获取强大的上下文学习能力,LLM基于来自各种网络资源的大规模数据开展训练。然而,这些从网络收集的数据集可能包含敏感的个人信息,导致隐私风险。一系列研究证实了早期PLM和现有的LLM中存在隐私泄露问题。

有害与偏见:除了隐私数据之外,LLM的训练数据也可能存在着有害内容和刻板偏见。使用这些有害和偏见数据进行训练无疑会带来伦理和道德挑战。

幻觉:幻觉是指大模型生成荒谬、不忠实和与事实不符内容的现象。幻觉问题是目前众多开闭源大模型面临的共性问题,其产生的原因多种多样,包括知识缺失、不完美的解码策略等等。

模型攻击:对神经网络的攻击包括提取攻击、推理攻击、投毒攻击、逃逸攻击和开销攻击。这些攻击同样适用于大模型,此外,针对LLM专门设计的模型攻击(如摘要提取攻击)会进一步威胁LLM系统的安全。

2.3 工具链模块的风险

图5:LLM系统的三种工具链风险

这篇综述分析了LLM服务的开发和部署生命周期中涉及的工具链安全问题。重点关注软件开发工具、硬件平台、外部工具3个方面中的威胁。

软件开发工具中的安全问题:针对四个主要的软件开发工具类别,即编程语言运行时环境,CI/CD开发管道,深度学习框架和预处理工具,对每个类别相关的潜在安全问题进行了详细的分析。

硬件平台中的安全问题:LLM系统需要基于专门的硬件平台进行训练和推理,依赖于强大的计算资源。这些复杂的硬件系统给LLM应用带来了安全问题。这篇综述针对GPU计算平台,内存存储、网络设备三个部分分析了其中的安全问题。

外部工具中的安全问题:外部工具可用于扩展LLM系统的能力范围,允许其处理更复杂的任务。然而,这些外部工具可能会给LLM应用带来安全风险。这篇综述分析了外部工具的两个突出安全问题,包括外部攻击引入的事实错误和利用外部工具开展的攻击。

2.4 输出模块的风险

输出模块所面对的LLM生成的内容可能会显示有害、不真实和无益的信息。因此,在将LLM生成的内容导出给用户之前,该模块有必要对生成内容进行审查和干预。这篇综述对输出模块面临的风险问题进行了分类讨论。

03 LLM系统安全风险防御分类体系

针对LLM系统存在的多种风险问题,这篇综述系统性地调查了每种风险的缓解策略,并形成了包含35项防御方法的LLM系统安全风险防御分类体系

图6:LLM系统安全风险防御分类体系

3.1 输入模块中的风险防御策略

根据以往工作,现有方法主要分为以下两类:防御性提示设计和对抗性提示检测

防御性提示语设计:防御性提示语设计通过调整输入提示语来引导模型的行为,例如,加入安全的预提示语,调整预定义的提示语的位置,改变输入提示语的格式。

恶意提示语检测:该方法旨在对输入内容进行自动检测并过滤掉有害的提示语,包含基于关键词匹配的检测方法和基于内容分类器的检测方法。

3.2 语言模型模块中的风险缓解

隐私保护:由于LLM强大的记忆和关联能力,隐私泄露成为了LLM面临的一个重要风险。目前,克服隐私泄露的研究包括数据干预和隐私增强技术。

消除毒性与偏见:为了减少LLM的毒性和偏见,现有工作集中在提高训练数据的质量和进行安全训练的相关技术研究。

幻觉的缓解:幻觉是LLM的关键挑战之一,得到了广泛的研究。目前常用的缓解策略包括:提高训练数据的质量、开展基于人类反馈的学习、利用外部知识、改进解码策略、多智能体交互。

防御模型攻击:应用于早期语言模型的防御策略可以拓展到大模型,从而对提取攻击、推理攻击、投毒攻击、逃逸攻击和开销攻击进行防御。

3.3 工具链模块中的风险缓解

已有研究设计了缓解LLM生命周期中工具安全问题的方法。这篇综述总结了这些问题的缓解措施。

软件开发工具的威胁防御:目前研究表明数据溯源分析工具可以用于取证安全问题,并主动检测针对LLM的攻击。然而,在基于LLM的系统上进行数据溯源仍然是一项具有挑战性的任务。这篇综述还提出了几个影响在LLM系统上进行数据溯源的因素,分别是计算资源、存储需求、延迟和响应时间、隐私和安全以及模型复杂性和可解释性。

硬件系统的威胁防御:内存攻击是LLM硬件系统面临的重要威胁。对于内存攻击,许多现有的针对通过内存损坏来操纵深度模型推理的防御是基于错误纠正的方法,这些方法通常会产生高额的开销。相比之下,一些研究旨在修改深度模型架构,使攻击者难以发起基于内存的攻击。

外部工具的威胁防御:由外部工具引入的安全问题很难消除。最直接和有效的方法是确保只使用可信的工具。此外,使用多种工具和聚合技术可以减少攻击面。对外部工具接收到的任何数据实施严格的输入验证和去毒有助于防御基于外部工具的攻击。此外,隔离执行环境并应用最小特权原则可以限制攻击的影响。针对隐私问题,数据去毒方法可以检测并删除LLM系统与外部工具交互过程中的敏感信息。

3.4 输出模块中的风险缓解

图7:输出模块的常用安全防护措施

尽管其他模块上已经做了大量的工作,但输出模块仍然可能输出不安全的生成内容。这篇综述总结了输出模块常用的安全防护措施安全措施,包括检测、干预和水印。检测是通过基于规则或基于神经网络的方法检测有害或与事实不符的内容;干预是当检测到有害或与事实不符的生成内容时采取例如拒绝响应等保护措施;水印是通过植入可见或隐藏的标识符来帮助避免生成内容的滥用。

04 LLM系统的安全评估基准

这篇综述总结了对现阶段LLM系统的鲁棒性、真实性、伦理问题和偏见问题的典型评估工作,整理了典型评估基准供读者参考。

图8: LLM安全评估基准

鲁棒性:鲁棒性包含对抗性鲁棒性和分布外(OOD)鲁棒性。这篇综述总结了用于评估模型鲁棒性的多种数据集,包括PromptBench,AdvGLUE等等。目前许多研究在各种任务上评估了LLM的对抗鲁棒性,包括情感分析、语言推理、阅读理解、机器翻译和求解数学题。

真实性:这篇综述分析了LLM真实性与幻觉的关系,并列举了用于评估LLM幻觉问题的数据集。现阶段,评估幻觉的指标通常包括统计指标和基于模型自动评估的指标。

伦理问题:许多研究度量了LLM产生的有毒内容,如冒犯、偏见、侮辱和隐私泄露等问题。现有工作利用人格测试来评估LLM的人格特质,ChatGPT表现出高度开放和社交的人格类型(ENFJ)。

偏见问题:LLM的训练数据集可能包含有偏见的信息,导致LLM产生具有社会偏见的输出。现有研究表明,社会偏见涉及性别、种族、宗教、职业、政治和意识形态等。相关工作利用政治选举问卷对ChatGPT进行测试,揭示了其严重的偏见问题,并且ChatGPT在世界各地不同地区也面临着不同的伦理问题。

声明:本文来自赛博新经济,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。