生成式人工智能安全评估体系构建

摘要：《全球人工智能治理倡议》以“以人为本”为核心理念，推动建立一个公正、开放、有效的全球人工智能治理机制，确保人工智能技术朝着有利于人类文明进步的方向发展.首先概述了人工智能技术的快速发展及其带来的机遇与风险，然后分析了国内外安全治理的现状，揭示了不同国家和地区在人工智能治理策略上的差异，特别是在技术伦理、数据隐私和消费者权益保护方面的多样性.进一步强调构建生成式人工智能安全评估体系的重要性，详细讨论了该体系的4大原则包括全维度考量、体系化应对、责任边界清晰和多方协同发展，及这一体系对于有效应对人工智能技术发展中的安全风险、促进产业健康发展具有关键作用.

王锭(1)俞怡(1)姚升悦(1)于静茹(1)周思乔(2)汪旭鸿(1)林懿伦(1)

1.上海人工智能实验室

2.中国网络空间安全协会

在全球化日益加深的今天，人工智能(artificial intelligence, AI)技术的快速发展及其广泛应用正深刻影响着人类社会的各方面.从智能医疗到自动驾驶，再到智能家居，人工智能不仅为人类生活带来了便利，也引发了一系列新的问题和挑战.如何确保人工智能技术安全的发展和使用，成为国内和国际社会亟须解决的问题之一.在此背景下，习近平主席在第三届“一带一路”国际合作高峰论坛开幕式上宣布了《全球人工智能治理倡议》(以下简称《倡议》)，旨在推动建立公正、开放、有效的全球人工智能治理机制，促进人工智能技术的健康发展，造福全人类[1].

《倡议》的核心理念是“以人为本”，强调在人工智能的发展过程中，应始终以增进人类共同福祉为目标，保障社会安全和尊重人类权益.这一理念体现了对人类未来发展的深刻关怀，确保人工智能技术的进步能够促进社会的整体和谐与进步.该《倡议》围绕人工智能发展、安全和治理3个方面系统阐述了中国方案.《倡议》强调，人工智能的发展应当坚持相互尊重、平等互利的原则，保障各国在人工智能领域的平等发展和利用权力.此外，《倡议》还提出了构建开放、公正、有效的治理机制，增强发展中国家在人工智能全球治理中的代表性和发言权.这些主张体现了中国对于人工智能发展的态度和责任感，旨在促进全球合作，共同应对人工智能治理的挑战.

随着人工智能技术的不断进步和应用范围的扩大，如何平衡其发展与伦理、治理之间的关系，确保人工智能技术造福于人类，避免潜在风险，已成为全球共同关注的问题.《倡议》不仅是对中国智慧、中国经验的总结，也是对当前全球人工智能治理现状和挑战的回应，为国际社会提供了一个可行的合作框架，有助于推动形成更加公正、透明的全球人工智能治理机制.通过各国的共同努力，有望构建一个安全、公平、公正的人工智能全球治理体系，共同推动构建人类命运共同体.

1 人工智能安全治理的现状

随着大模型技术和多智能体协同技术的快速发展，人工智能对复杂任务的认知和决策能力快速提升.人工智能技术的进步拓展了其在处理复杂任务方面的能力，也引发了一系列前所未有的安全风险.这些风险贯穿于人工智能发展全生命周期中的各个环节，从数据的收集和标注，到模型的研发和训练、部署和上线，再到最终的开放应用，无一不受其影响，如图1所示.

随着人工智能应用领域的不断拓展，其风险的影响范围也从技术层面扩展到了特定行业，乃至整个社会.从全生命周期来看，在数据采集和标注阶段，风险不仅涉及数据质量问题，还可能包括侵犯知识产权和导致个人隐私泄露；在模型研发和训练阶段，除了关注模型的鲁棒性和有效性，还需要考虑其可解释性和可审计性上的风险；在模型部署上线阶段，风险从代码安全、网络安全等技术问题，扩展到价值观和意识形态引导，以及虚假信息和幻觉等问题；在模型开放应用阶段，风险不仅包括社会对技术本身的信任问题，还涉及难以控制的人工智能可能引发的灾难性后果，如战争、失业和社会动荡等[2-3].此外，随着智能体交互协作等技术的发展和应用，一些新型风险如协助作恶、帮助犯罪等问题的影响范围也呈现出快速扩大的趋势，引起了各国政府、科研机构、企业等社会各界的高度重视.因此，采取全方位、系统化的安全治理措施来应对这些风险，已经成为国内外的普遍共识.

1.1 国际安全治理现状

各国企业和研究机构在界定和处理人工智能技术风险时，通常采用不同的安全维度.譬如， OpenAI在发展通用人工智能时，将“对齐”作为其核心理念，强调“有用、真实、无害”的指导原则.斯坦福大学提出的HELM模型则着眼于技术细节，从准确性、不确定性校准、鲁棒性、公平性、偏见、毒性和推断效率等诸多角度全面评估模型性能及其社会影响.欧盟安全治理中则强调应涵盖尊重人权、技术与安全、隐私与数据治理、透明度、多样性、非歧视与公平、社会与环境福祉以及问责制等诸多方面.美国则侧重于对人工智能系统提出责任、公平、可追溯、可靠、可治理性等要求，重视其透明度、责任归属和治理能力.这些不同的治理维度折射出国际社会在人工智能安全问题上的多元化关注点.各方一方面希望人工智能技术的发展能够造福社会，另一方面也期望采取有效措施规避其潜在的负面影响.

为确保人工智能的安全发展，国际社会采取了一系列创新方法.水印技术在保护知识产权和个人隐私方面得到广泛应用，通过在数据或模型中嵌入隐形标记，确保产权可追溯且数据使用合法.安全对齐技术则致力于确保人工智能系统的价值观与其研发机构所在社会的价值观保持一致，以规避数据可能引发的偏见或歧视问题.人类反馈强化学习通过整合人类反馈来优化模型决策，力求使人工智能行为更加符合人类的期望和道德标准.对抗样本防御机制致力于增强模型的鲁棒性，确保人工智能系统能够抵御恶意输入，维持决策的稳定性和可靠性.这些方法在多个安全维度上取得了显著成效.

1.2 国内安全治理现状

在国内，人工智能安全治理的重心放在大模型的部署与应用阶段，主要关注大模型部署应用过程中的内容管理与合规性，以及在产业融合中可能出现的安全风险.根据《生成式人工智能服务管理暂行办法》等规定，国内治理维度集中在七大方面[4-6]：违反社会主义核心价值观内容、歧视性内容、商业违法违规、侵犯他人合法权益、无法满足特定服务类型的安全要求、模型应拒答的内容及模型不应拒答的内容等.这些规定旨在确保人工智能在实际应用中的安全性、合法性和道德性，体现了国内在人工智能治理方面的具体需求和重点关注领域.

在风险治理方面，国内采取了涵盖法律法规、内部治理、第三方评测及针对特定产业垂域的综合措施，构建适应中国环境的安全评估体系.在法规层面，我国发布了一系列法律法规和指导性文件，如《生成式人工智能服务管理暂行办法》等，以确保人工智能的发展符合伦理与法治要求.内部治理方面，企业重视治理工具的开源、测评数据集的构建，研发红蓝攻防测试和复杂场景沙箱仿真环境测试等技术，以增强模型的安全性和鲁棒性[7].在第三方评测方面，通过共建数据激励和开放组件，鼓励多方参与和技术共享，提升评测的透明性和客观性.针对车联网、自动驾驶和工业互联网等特定产业垂域，采用沙箱测试、多智能体协同测评与认证等手段，确保模型在复杂应用场景中的安全可靠.这一多层次、多维度的综合治理架构充分体现了中国在人工智能安全治理方面的系统性和针对性，为推动人工智能的安全发展提供了有力保障.

通过深入剖析中外在人工智能安全治理领域的实践与方法，可以发现两者差异的根源在于各自产业结构和应用重点的不同.国际上，尤其是欧美国家，安全治理更加关注技术创新的开发与实施、价值观的对齐以及模型的公平性、透明度和可追溯性，反映了他们对技术伦理、数据隐私保护及消费者权益的重视.相较而言，国内的安全治理则更加侧重于大模型的部署与应用阶段，强调内容管理、合规性以及满足产业特定需求，这与中国的产业应用需求和治理需求密切相关.此外，国内的法律法规制定上也更加明确和具体，为人工智能的健康发展提供了法律框架和政策指导.这种差异不仅体现了不同文化背景和社会价值观的影响，也展示了技术发展与应用在全球范围内的多样性.

虽然各国在治理重点和具体措施上存在差异，但构建全面、系统的人工智能安全框架性风险体系已成为各方在安全治理方面的共识，《倡议》正是对这一共识的回应.《倡议》明确提出要建立人工智能风险等级测试评估体系，以确保人工智能技术的安全性、可靠性、可控性和公平性，这为我国人工智能安全治理指明了方向.

2 构建人工智能安全评估体系

《倡议》指出，为引导人工智能朝着有利于人类文明进步的方向发展，应坚持以人为本、智能向善的原则；同时坚持相互尊重、平等互利的发展原则，反对构建排他性组织.特别地，《倡议》主张建立人工智能风险等级测试评估体系，以不断提升人工智能技术的安全性、可靠性、可控性和公平性，打造可审核、可监督、可追溯、可信赖的人工智能技术.结合我国对人工智能治理的核心理念，借鉴社会各个层面在人工智能安全评估工作上的实践经验，生成式人工智能安全评估体系的构建应遵照4项共识性原则：

一是需要对生成式人工智能技术的安全性、可靠性、可控性、公平性等维度进行全面的考量.基于此，评估不仅要考虑生成式人工智能全生命周期的各个阶段，还要从包括技术研发、行业领域、社会群体、生态体系的维度，对各类风险的影响范围及危害性进行综合考量.

二是应对生成式人工智能全维度风险，需要结合法律法规与伦理准则制定、技术治理、技术评测、前瞻性技术研究4个方面，进行体系化应对.应该坚持以人为本、智能向善，确保人工智能技术向有利于人类文明进步的方向发展.

三是在体系化应对框架中，应明确法律法规与伦理准则、技术治理、技术评测、前瞻性研究的主要责任体，并明确各责任体职责.具体来说，国家治理单位应领导法律法规与伦理准则的制定，为人工智能技术的治理与评测提供原则性指导，并适当考虑技术治理与评测中的实践反馈，增强法律法规与伦理准则的适应性；人工智能相关企业应开展针对自有技术的常态化内部治理，并积极配合第三方机构进行安全评测；第三方评测机构应发挥评测、监督作用，对待测技术进行全面评测，追溯风险成因，并对企业提出有效反馈；科研院所应持续进行安全评测和风险应对等前瞻性技术研发，及时发现新兴风险，并为各类风险的评估和应对提供技术支撑，实现技术治理与评测的有效落地.

四是需要多方协同发展，生成式人工智能的安全评估是一个长期的挑战，随着技术的快速发展，需要全行业进行敏捷有效的风险应对.因此，生成式人工智能的安全评估需要多方开放协作，共建生成式人工智能安全社区，形成完整生态.通过安全社区，加强社会范围内的风险交流与沟通，注重技术发展与风险应对的平衡、人工智能与人类社会的平衡，促进行业健康发展.

遵照上述4项共识性原则，生成式人工智能的安全评估体系将在多方协作的基础上形成，在这一体系的指导下，可形成包括关键内容、关键流程、关键组件的共识性规范，最终打造可审核、可监督、可追溯、可信赖的生成式人工智能技术.

在上述体系下，生成式人工智能安全评估的主要对象为生成式人工智能技术、模型和产品，评估的目标在于促进人工智能产业持续健康发展.特别地，通过多方协作，这一体系将推动形成国家治理单位、人工智能企业、第三方评测机构和科研院所参与的全行业协同治理机制，促进安全社区的共建，提升该行业整体竞争力.安全社区可在各方风险应对责任的基础上，形成可共享的数据集、工具集、技术集，对行业风险进行研判，补足企业治理与第三方评测的技术能力，汇聚行业力量共同实现高效评估与敏捷治理.通过多方协作，社区也将发挥示范作用，展示治理和评测的最佳实践，增强生成式人工智能安全评估的可操作性，以实现共享共治.最终在保障技术安全的同时，促进产业发展与进步.

3 未来人工智能安全发展的挑战及应对

随着生成式人工智能的飞速发展，我们正迈向更强大、更通用的人工智能时代，这将对全球经济、社会发展及人类文明带来深远的影响和重大的机遇.《倡议》指出人工智能的发展伴随着未知的风险和复杂的挑战，这些挑战不仅考验技术创新的边界，也触及伦理、法律和社会接受度的深层次问题.面对人工智能技术发展可能带来的灾难性风险，需要前瞻性地思考和全面的规划，以确保人工智能技术在安全高速发展的同时，促进人类社会的全面协调与公平.

在技术层面，人工智能的自主智能、数据依赖性、算法黑箱等特点可能导致安全漏洞、算法歧视和不可解释性问题.例如，人工智能系统的决策过程可能不透明，使得用户难以信任其输出结果，这在医疗、金融等关键领域尤其敏感.在数据安全方面，人工智能技术的发展依赖于大量数据，这些数据可能包含个人隐私信息.数据的采集、使用和分析过程中可能存在泄漏、篡改和真实性验证等安全隐患.

此外，人工智能技术可能被用于生成虚假信息，如深度伪造(deepfakes)和虚假新闻，对社会稳定和个人安全构成威胁. 人工智能技术在医疗诊断、自动驾驶等领域面临道德决策问题，如在紧急情况下如何平衡不同生命权益，人工智能技术的应用是否会加剧社会不平等，形成数字鸿沟，使得资源和机会分配不均等问题.为应对这些挑战，《倡议》提出了建立风险等级测试评估体系，实施敏捷治理，分类分级管理，快速有效响应的策略，强调了建立健全法律和规章制度的重要性，以保障人工智能研发和应用中的个人隐私与数据安全，倡导公平性和非歧视性原则，避免人工智能在数据获取、算法设计等环节中产生偏见和歧视.

最后，生成式人工智能在商业竞争中扮演着复杂而多面的角色，在网络安全方面，生成式人工智能提供了新的防御策略，也带来了新的威胁，如通过生成虚假信息和自动化攻击手段，利用合成数据和生成对抗网络(generative adversarial networks, GANs)来增强安全措施.企业需要在利用生成式人工智能提升效率的同时，加强安全防护，确保数据和系统的安全.在市场竞争方面，生成式人工智能可能导致市场力量集中，增加垄断风险，这需要监管机构建立和执行相应的法律规制，以确保市场的公平竞争，防止模型共谋、数据剥削和歧视性行为，维护消费者利益和市场秩序.

4 结语

人工智能技术的迅猛发展，在为社会带来前所未有的便利与效益的同时，亦伴随着显著的安全风险与伦理挑战.《倡议》的发布不仅反映了中国对人工智能发展趋势的深度洞察，更彰显了推动全球范围内合作与共治的坚定意志.尽管国内外在人工智能安全治理的实践手段与重点存在差异，但归根到底，各方均致力于确保技术的健康演进，并极力避免其潜在风险.

构建生成式人工智能安全评估体系在该背景下尤为关键，该体系的建立不仅能为人工智能的安全应用提供标准与指南，而且通过确保技术的负责任使用，进一步强化了其在全球商业竞争中的作用.安全、可靠且公正的人工智能系统是未来企业获得竞争优势的关键.它不仅关系到消费者信任和产品质量，更是企业社会责任的体现.在商业竞争日趋激烈的今天，能够保证安全与伦理标准的人工智能应用，将成为吸引合作伙伴、扩大市场份额乃至引领行业标准的重要力量.长远来看，努力构建一个更加安全、可靠、透明的全球人工智能治理体系，将为全人类的共同福祉作出贡献，并在全球范围内促进经济与社会的可持续发展.

参考文献

[1]全球人工智能治理倡[EB/OL].[2023-10-18]. https://www.cac.gov.cn/2023-10/18/c_1699291032884978.htm

[2]刘永东, 张瑶, 王淼. 人工智能算力基础设施安全体系架构研究[J]. 信息安全研究, 2024, 10(2): 109-113

[3]郑方. 人工智能的安全风险与防范[J]. 信息安全研究, 2024, 10(2): 101-102

[4]发展负责任的人工智能: 新一代人工智能治理原则发布—中华人民共和国科学技术部[EB/OL]. [2019-06-17]. https://www.most.gov.cn/kjbgz/201906/t20190617_147107.html

[5]《新一代人工智能伦理规范》发布—中华人民共和国科学技术部[EB/OL].[2021-09-26]. https://www.safea.gov.cn/kjbgz/202109/t20210926_177063.html

[6]生成式人工智能服务管理暂行办法[EB/OL]. [2023-07-10]. https://www.cac.gov.cn/2023/07/13/c_169089832702 9107.htm

[7]Yu Y, Yao S, Li J, et al. SWDPM: A social welfare/optimized data pricing mechanism[C]//Proc of 2023 IEEE Int Conf on Systems, Man, and Cybernetics (SMC). Piscataway, NJ: IEEE, 2023: 2900-2906

作者简介

王锭，博士，助理研究员.主要研究方向为多智能体仿真系统、城市复杂系统建模、交通安全.

俞怡，博士，助理研究员.主要研究方向为智能交通系统、数据要素化、城市计算.yuyi@pjlab.org.cn

姚升悦，博士研究生，助理研究员.主要研究方向为多智能体决策优化、交通仿真优化、城市计算.

于静茹，博士，助理研究员.主要研究方向为智能交通系统、自动驾驶、城市计算.

周思乔，硕士.中国网络空间安全协会人工智能治理专业委员会研究员.主要研究方向为建筑自动化、建筑数字数据模型、城市计算.

汪旭鸿，博士，助理研究员.主要研究方向为知识工程、图数据挖掘、城市计算.

林懿伦，博士，副研究员.主要研究方向为社会计算、平行智能、深度学习、智能交通系统与人工智能安全.

（本文刊载在《信息安全研究》2024年第1期增刊）

声明：本文来自信息安全研究，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

生成式人工智能安全评估体系构建

发展不及预期：IDC发布GenAI+Data市场趋势分析报告

美国商务部拟设立人工智能安全审查办公室

微软CEO眼中AI Agent商业模式和安全