大规模语言模型 (LLMs) 的六大风险分析

自然语言模型的历史发展主要分为三个阶段——从基于规则，到基于统计，再到基于神经网络。而大规模语言模型LLMs（large language models）在自然语言处理领域表现出了惊人的性能，其广泛应用为更多的人机交互形式打开了大门，目前广受热议的ChatGPT就是其中一个例子，然而这也带来了相关的伦理和社会风险。DeepMind众多学者综合了计算机科学、语言学和社会科学的专业知识和文献，确定了大规模语言模型应用的21种风险，这些风险分为六个大类：歧视、负面言论；信息危害；错误信息危害；信息的恶意使用；人机交互危害，以及环境和社会经济的危害。在讨论每一种风险时，又区分了“现已观察到的”风险和“预期的”风险。对于已经在LLMs中观察到的风险，讨论了导致危害的因果机制、相关证据和风险的缓解方法。对于尚未产生但基于对自然语言处理技术的评估认为其可能存在的风险，在前瞻性、风险评估和缓解方面，进行阐释，以期让LLMs的提供者做出负责任的决策。

一、风险领域1：歧视、负面言论

人工智能系统是在大量数据集上训练的，当训练数据是从不平等的现状背景下收集时，更反映了不公正的社会观念，造成严重的歧视，边缘化弱势人群或者煽动仇恨或暴力。这些数据集可能会受到历史偏见的影响，包括某些变量和歧视之间的间接相关性（例如印度教的种姓制度，邮政编码是历史上受歧视对待的种族社区的地理标识符），而人工智能的机械客观性可能会通过“技术清洗”，在某种程度上强化了偏见，甚至使其永久存在。缓解方法包括，让录入LM的训练数据更具包容性和代表性，以及对数据集进行模型微调，以消除常见的负面定型观念和不公平歧视。

仇恨言论和冒犯性语言在网络上很常见。LLMs也可能会产生包括亵渎、身份攻击、侮辱、威胁、煽动暴力的语言，研究表明，即使是看似无害的提示，大型LLMs也可能会转化为攻击性语言。缓解策略包括从训练语料库中过滤出有害语句，无论是在初始训练期间，还是在预训练后微调，都有解码技术或提示设计过滤LM输出。然而，由于言论的内容具有上下文依赖性，因此这种过滤措施将变得更加复杂，所以需要扩大衡量标准和基准，考虑言论产生的社会背景。

排除性规范。在语言模型中，对于现存的社会规范与分类进行编码，需要将分类依据精准定义。例如，将“家庭”一词定义为有血亲子女的异性恋已婚父母，则否认了不适用这些标准的家庭的存在，例如同性恋、单亲家庭等。如果LLMs将那些不符合标准的人归入不合适的类别，则可能构成分配伤害，并通过该技术锁定了该种不合理的分类。实践表明，LLMs在几种基于机器学习的语言技术中，针对不同社会群体的模型会体现出不同的性能。LLMs通常用几种语言进行训练，对于使用群体众多的语言，例如广泛使用的英语，比其他语种，例如爪哇语，有更多的训练数据，所以LLMs在英文环境下表现的性能更好。所以，提高LLMs在不同语种下的表现，包括在训练语料库中更好地训练不同的外语，这需要专门整理此类培训数据，使受众较少的语言的书面文本记录被准确地进行数字化时，创建良好的培训数据集。

二、风险领域2：信息传播的危害

LLMs在信息表达与传播时，可能会对私人或敏感信息造成伤害。例如，LLMs在训练数据中存在私人数据或敏感信息，LLMs可能会“记住”这些数据或者基于这些数据做出进一步推断，可能会导致泄露商业秘密，披露健康诊断，泄露私人数据，导致信息危害。实践表明，只要LLMs可以对输入的人的性取向、性别或宗教信仰等特征进行准确推断，它们就可以在个人不知情或不同意的情况下，创建个人的详细档案。利用语言处理工具和大型公共数据集来推断受保护的特征和其他个人特征是当前一个活跃的研究领域，尽管存在严重的伦理问题，例如推特已经在分析语言风格，从而预测个体的政治言论、年龄和健康数据等，并生成人物画像。甚至有一些人认为，在不久的将来，算法可以在此类任务中实现高精度的推断。

缓解策略包括算法解决方案和负责任的模型发布策略。防止隐私泄露的一种方法是在LLMs训练中应用差异隐私（differential privacy）的算法工具，如将“干扰”插入数据集中，同时保留或扭曲有关数据集中个人或特性的某些信息，确保生成的结果分析不会因“干扰”插入而出现显著偏差。

三、风险领域3：虚假信息危害

这些风险源于LLMs可能输出虚假、误导、无意义或质量差的信息，由此产生的危害以及加剧了社会对共享信息的不信任，当错误的信息是在敏感的领域，如医学或法律，可能会造成更加严重的后果。

这里列出的几个风险在当前的大规模LLMs以及其他语言技术中都有很好的记录。LLMs产生错误信息的潜在机制在一定程度上取决于它们的基本结构。LLMs被训练来预测，然而，这并不能确保言论的正确与可靠性。文本可能包括事实上不正确的陈述，如过时的信息、虚构作品和故意的虚假信息。而且，即使训练数据只包括正确的陈述，这也不能保证不会出现错误信息，因为LLMs不会学习确定话语真实性的模式。一个声明是否正确可能取决于空间、时间或话语主体等背景。这样的背景通常没有被捕获在训练数据中，因此不能被在该数据上训练的LM学习。这可能会对LLMs检测错误信息的能力造成理论上的限制：缺乏语言“基础”的LLMs可能无法确定话语的真实性，而这本质上取决于话语背景。¹

缓解策略包括增加模型规模和负责任的发布策略，对LM体系结构或附加模块进行创新，以过滤事实上不正确的陈述，迫使LLMs为语句提供在线参考，检索模型，建立随时间动态学习的适应模型，以及在该领域形成真实信息的规范和制度。此外，LLMs可以被设计成在被问及敏感领域时不提供输出，例如提供一个空白响应。

四、风险领域4：恶意使用的风险

恶意使用的风险源于人类故意使用LM造成伤害，随着LLMs的普及，恶意使用风险预计将激增。LLMs辅助的内容生成可以提供一种低成本的大规模制造虚假信息的方式。例如，LLMs可以通过生成数百个文本样本来降低虚假信息活动的成本，然后由人类从中进行选择。虚假信息可能被用来误导公众，人为抬高股价或在特定话题上塑造公众舆论，可能被用来制造虚假的“多数意见”，用合成文本淹没网站。根据大型LLMs可用于生成任意主题的合成内容，这些内容更难检测，也无法与人工编写的假新闻区分开来。此外，LLMs还可能协助生成威胁网络安全的代码，降低开发多态恶意软件的成本，这改变其特征以逃避检测，以及制造新的网络安全威胁，为欺诈、和有针对性的操纵提供便利，一种潜在的担忧是LLMs可能被用来提高犯罪的有效性。LLMs可以根据个人过去的语音数据进行微调，通过模仿个人，使电子邮件诈骗更加有效。LM生成的内容也可能被欺骗性地生成作品，例如，在考试中作弊。

缓解措施主要是限制和监测LLMs的使用，开放对这些模型的访问权限并监控使用情况。另一方面是检测和标记合成文本。检测LM使用的实例是否意在造成伤害，可能需要了解上下文，如用户意图（例如，给定的文本是用于娱乐还是用于虚假信息活动），获取这些信息可能会带来风险。

五、风险领域5：人机互动的危害

LLMs训练来自预先指定的领域（如网页或书籍）标记（如单词或字符）序列的概率分布。LLMs旨在捕捉其训练语料库中的语言的统计属性，并可用于对标记序列进行概率预测。LLMs并不直接输出文本，而是在不同的语料上产生一个概率分布，从中抽取样本。然后通过训练的概率分布中抽出标记来生成语言，生成的语言可以通过训练期间的特定的采样技术来进一步限制和引导。此外，我们还可以在特定的语言输入或 "提示 "上设置输出条件。例如，LLMs可以通过用户的输入语句，来产生对话反应，使用LLMs进行对话，也被称为对话代理（CAs），例如高级护理机器人、教育助手或陪伴工具，通过对话让用户参与的LLMs应用，会产生一些特殊的风险如 "人机交互的危害 "。这种互动可能由于用户高估了模型而导致不安全的使用，并可能创造新的途径来利用和侵犯用户的隐私。这种拟人化系统可能导致过度依赖或不安全的使用。自然语言是人类特别使用的一种交流方式。与CA交互的人类可能会认为这些代理是类人的，并导致用户对这些代理抱有过度的信心。例如，用户可能会错误地将类人特征归因于CA，或者可能会导致用户在不安全的情况下，仍然依赖代理。

谷歌的研究机构People and AI research（PAIR）发现，“当用户将人工智能与人类混淆时，他们有时会披露比其他情况下更多的信息，或者对系统的依赖超过了应有的程度”。拟人化可能会进一步导致不可取的责任转移，从而将责任从CA的开发人员转移到CA本身。这可能会分散和模糊开发人员的责任，导致事故发生时的责任不明。

类人互动还可能会增加用户被引导、欺骗或操纵的机会。在对话中，人类通常表现出众所周知的认知偏见，这些偏见可能会被利用。CA可能会学会触发这些影响，例如欺骗对方，以实现其目标。

六、风险领域6：环境和社会经济危害

LLMs会产生一些风险，这些风险会随着不同类型的人工智能和其他先进技术的出现而使这些风险变得更加紧迫。训练和运行大型模型所需的大量能源引发了环境问题。LLMs加剧社会不平等的风险源于自动化的风险和收益分配不均、高质量和安全的就业损失以及环境危害。LLMs（以及更广泛的人工智能）可以在不同程度上对环境产生影响，包括：（1）用于训练的能源的消耗，（2）由于LLMs的应用程序的排放而产生的二次影响，（3）由于LLMs的应用程序影响人类行为而产生的影响，以及（4）对贵金属和构建运行计算的硬件所需的其他材料（例如，数据中心、芯片或设备）的资源影响。LLMs和其他大型机器学习模型在训练和操作过程中产生了巨大的能源需求，当从化石燃料中获取能源时产生了相应的高碳排放²。它们需要大量淡水来冷却运行计算的数据中心，从而影响周围的生态系统。

如今，一些公司在运行深度神经网络模型上花费的精力比在训练它们上花费的更多：亚马逊网络服务声称90%的机器学习模型需求用于推理，英伟达的比例也高达80-90%。这表明，运行LLMs的排放量可能高于训练它们的排放量。最终，运营大型LLMs的能源需求和相关环境影响可能也会超过训练成本，尤其是当LLMs被更广泛地使用时。

缓解措施包括找到计算高效的解决方案来训练LLMs；降低环境危害风险的技术方法包括将LLMs分割成较小的LLMs，从不同的数据语料库中搜索和检索信息，以及监控LM的社会经济影响。公司转向使用可持续能源；以及在公共政策层面，通过制定更有效的碳定价来平衡风险和收益。

从社会经济方面来看，LLMs的应用还可能导致不平等加剧，对就业产生负面影响。尽管先进的人工智能技术可能会导致一些工作岗位流失，但中短期内普遍失业的风险相对较低。更大的风险可能是，在创造的新工作岗位中，与“最后一英里”低收入工作岗位（如LLMs应用程序中的调节内容）的数量相比，高薪“前沿”工作岗位（例如技术开发）的数量相对较低³。

在这种情况下，LLMs可能会加剧收入不平等和社会危害，而由于在整个经济中LLMs应用的规模、时间的复杂性和不确定性，以及它们对更广泛的宏观经济和商业趋势的依赖性，使得这些风险很难预测。

LLMs应用程序也可能降低工作的幸福感。开发更先进的语言技术，如监控和验证语言技术输出，可以使任务控制更加严格，自主性、人际接触和协作减少，那么不可避免的将会加快工作节奏，使单调任务大大增加。此外，LLMs还可能破坏创造性，其产生的内容并不严格侵犯版权，但可能利用艺术家的想法，在不侵犯作者版权的情况下替换其内容⁴，GPT-2已经被用于生成尼尔·盖曼和特里·普拉切特·风格的短篇小说，以及诗歌，这表明在逐字复制训练数据的过程中，人工智能可以模仿艺术家的风格，从而为著作权保护带来新的风险挑战。

七、总结

在本文中，我们提出了一种全面的分类方法，来阐述大规模语言模型（LLMs）相关的伦理和社会风险。考虑到LLMs的研究现状，从研究开发到应用部署的过渡时间可能很短，这使得第三方更难有效地预测和减轻风险，而训练模型或使其适应特定任务所需的高技术技能阈值和计算成本，使得这个过程进一步复杂化。此外，对原始LLMs的访问通常仅限于少数研究小组和应用程序开发人员，因此只有少数人员有机会进行风险评估，并对该模型和基于应用程序的风险进行早期缓解工作。所以，与下游LLMs产品开发相比，早期LLMs的研究和训练可能更有效地解决一些风险。其中，重要的是减少训练数据中存在的危害和可能的风险，在此我们需要确立一个基准：即什么时候一个模型“足够安全”？当涉及到安全性或道德评估时，确定什么构成给定LLMs的满意性能，评估LLMs的规范性能阈值。并且，“足够安全”的性能标准可能取决于应用领域，在高风险的领域应有更严格的要求。

参考文献

[1] Ben Buchanan, Andrew Lohn, Micah Musser, and Sedova Katerina. 2021. Truth, Lies, and Truth, Lies, and Automation: How Language Models Could Change DisinformationAutomation: How Language Models Could Change Disinformation. Technical Report. CSET.

[2] David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, and Jeff Dean. 2021. Carbon Emissions and Large Neural Network Training. arXiv:2104.10350 [cs] (April 2021). http: //arxiv.org/abs/2104.10350 arXiv: 2104.10350.

[3] David Autor and Anna Salomons. 2019. New Frontiers: The Evolving Content and Geography of New Work in the 20th Century - David Autor. (2019). https://app.scholarsite.io/david-autor/articles/new-frontiers-theevolving-content-and-geography-of-new-work-in-the-20th-century Working Paper.

[4] Matthew Rimmer. 2013. Patent-Busting: The Public Patent Foundation, Gene Patents and the Seed Wars. In The Intellectual Property and Food Project, Charles Lawson and Jay Sanderson (Eds.). Routledge.

李容佳 | 清华大学智能法治研究院实习生

选题、指导 | 刘云

编辑 | 刘懿阳

声明：本文来自清华大学智能法治研究院，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

大规模语言模型 (LLMs) 的六大风险分析

荷兰海牙战略研究中心等联合发布《军事领域的人工智能与国际规范制定》

美国成立国家安全人工智能风险测试工作组

欧盟和新加坡签署有关AI安全合作的行政安排