吴世忠院士：对生成式AI安全研究的九点观察

2024年7月31日，以“打造安全大模型，引领安全行业革命”为主题的ISC.AI 2024第十二届互联网安全大会在北京国家会议中心召开。中国工程院吴世忠院士在主题演讲中指出，人工智能作为典型的两用性技术，具有双刃剑特性，安全图景变革随之加速，客观上需要加强安全研究，有效管控重大风险隐患。吴世忠院士从文献统计和内容分析两个层面分享了对生成式AI的九点观察和四点启示，以下为报告节选。

观察一

相对于技术发展，安全研究严重滞后

业界公认的生成式人工智能的勃兴，滥觞于2012年AlexNet的出现，我们以此为起点，利用全球引文数据库(Web of science)，对与生成式人工智能发展与安全相关的文献进行统计分析，结果显示，十多年来，相对于技术创新方面的发展，安全研究严重滞后，特别是Transformer面世以来的预训练大模型时期，这种滞后现象尤其突出。

观察二

安全研究日渐热络，与发展差距仍大

ChatGPT横空出世至今，安全研究日渐热络，专业论文发布数量增长较快。分析目前最大的预印本论文发布平台(arXiv)上能够抓取到与大模型安全相关的论文2500多篇发现，近40%涉及大模型攻击，30%涉及大模型安全，约25%涉及大模型防御。同期与大模型安全相关的技术专利申请和授权数量也在逐年走高。但与大模型研究的蓬勃发展相比，数量差距仍然较大。

观察三

中国研究活跃，论文数量遥遥领先

分析arXiv上近两年来发表论文的第一作者分布：从国家来看，中国、美国、新加坡、德国、澳大利亚排名前五。中美两国遥遥领先，形成第一梯队。其中，中国的研究最为活跃，发表论文总量超过美国。从单位来看，中国科学院、美国加州大学、斯坦福大学、清华大学、微软公司排名前五。在国内，中国科学院、清华大学、人民大学、香港科技大学等表现不俗。

观察四

影响力美国排一，“大厂”大学贡献大

从发表论文的引用情况看，美国的科技影响力遥遥领先，Meta、斯坦福、微软、谷歌等业界“大厂”大学既是大模型发展研究的大本营，也是安全研究的主阵地。仅Meta公司2023年7月发布的 Llama 2 一文，截至本月14日，被引高达5741次。相比较而言，我国科技论文整体影响力偏弱，质量还有待提高。但从单一研究团体看，清华大学、中国科学院、香港科技大学、中国科学技术大学等高校院所的学术影响力已跻身世界前列，发展潜力巨大。

观察五

头部企业共识渐成，纷纷强化安全投入

作为创新主体的头部企业是人工智能研究的大本营，也是重磅论文的主要发源地，从国际上看，OpenAI、Meta、DeepMind、微软等AI巨头近年来相继加大了在AI安全技术和监管措施方面的投入。国内的百度、科大讯飞、阿里、华为、智谱等加大在安全研究上布局和投资。这说明国内外的主流厂商逐渐认识到安全研究的重要，大模型能力增长迫切需要安全研究快速跟进，这已成为业界共识。

观察六

研究范围宽阔，热点重点众多

通过对arXiv近两年的相关论文，可以看出生成式人工智能安全研究的热点。其中，“对抗攻击研究”论文数量排名第一，细分研究领域众多；“RLHF和强化学习”论文平均引用量排名第一，引领安全对齐方向；“数据集”论文平均引用量排名靠前，高质量数据集是基础。

观察七

四大研究方向，全面涵盖AI发展

纵观现有的安全研究，可大致归纳为四个大类，即理论研究、技术研究、政策和伦理研究和实际应用研究。理论研究集中探究如何确保AI系统在各种条件下表现的可靠和安全，重点研究内容包括鲁棒性、可解释性、公平性。技术研究主要围绕对抗、突出防御，集中在对抗样本、监测与防御、证明与验证等方面。政策和伦理研究主要研讨如何制定道德规范和技术标准，以规范人工智能系统安全、合规和负责任的使用，主要聚焦在法律法规、伦理准则、国际合作三个主题。实际应用研究主要在于确保风险可控的前提下，积极促进人工智能技术成果的转化和应用推广，较为成熟的行业应用集中在自动驾驶、医疗健康、金融安全等。

观察八

五大研究领域，深入使用环节

在研究领域上，可以粗略地将目前的技术研究分为五个类别，即安全风险、安全防护、安全攻击、安全测评和安全治理。

“检”重在验证技术机理，识别应用风险，包括虚假信息传播、有害内容检测、隐私泄露监测、利用审查机制和比对工具细化生成内容的审核等。

“防”重在研究安全措施，防范误用滥用，研究重点包括关注模型的内生安全、对齐方法、关注外部安全的护栏方法等。

“攻”重在立足以攻促防，强化积极防御。安全攻击是大模型安全研究的重点领域，主要可以分为“善意”的红队测试和恶意攻击两种形态，但都有其局限性，目的主要在于以攻助防，积极防御。

“测”重在依据标准规范，评估保障能力。安全测试和风险评估是AI安全研究的关键领域，美英等西方国家将成立AI安全研究所作为推进全球治理体系的当务之急，而安全测试与风险评估技术则是全球治理能力的重要抓手。目前就安全测评的指标体系讨论较多，涉及安全性、可靠性、准确性、可控性、公平性、透明性、合规性等。测评内容也提法不一，主要包括功能与性能、内容安全、数据安全、系统安全、保障能力等。

“治”重在平衡发展安全，落实治理要求。安全治理是AI安全研究的热门话题。归纳全球AI治理的核心关切，主要有透明度、公平性、非恶意、负责任、隐私、向善、信任、尊严等十个方面。治理就是要将这些应用要求落实到从大模型的部署、开发、计算推理、数据输入到推广应用的各具体环节。

观察九

十大重点问题，成为当前研究热点

生成式人工智能安全研究涉及广泛复杂的问题，主要涉及以下十大问题：1、鲁棒性和可靠性；2、可解释性和可理解；3、公平性和偏见；4、对抗性攻击和防御；5、隐私保护；6、人机交互安全；7、伦理和治理；8、监督与控制；9、测试评估；10、关键基础设施中的应用。

基于上述九点观察，吴院士提出以下四点启示：

启示一

安全认知，日渐清晰。

作为网安领域从业者，相信大家都已敏锐的感知到，人工智能的应用极大地改变安全问题的内涵和外延。基于对学术前沿的观察，生成式AI的安全问题，可能将会是Security（既有安全）、Safety（新兴安全）和Ethics（伦理安全）交织交融的的全新图景。而在这一全新图景下，AI安全研究便是要构建可信的人工智能自身安全（safety），运行安全的人工智能攻防安全（security），以及治理负责任的人工智能伦理（Ethics）安全。

启示二

安全研究，路阻且长。

相对于大模型研究的内容深入和成果丰硕，安全研究可以说刚刚开始，不仅任重道远，而且困难重重。至少有四个方面的科学难题需要攻关和克服，一是大模型的解释性和透明性不足。二是安全保障技术的复杂性和多样性。三是伦理和道德问题的复杂性。四是安全测试和风险评估的复杂性。

启示三

安全行业，大有可为。

人工智能赋能百业千行，自然会给安全行业注入强大的发展动能。国内外的安全行业都在积极拥抱AI、运用AI。可以预见，经历过IT驱动到DT驱动的安全行业，将迅速迈进AI驱动的新时代。更及时的威胁感知，更深入的行为分析，更精准的漏洞管理，更便捷的情报共享，更迅速的应急响应，更智能的风险管控，将是网络安全行业的基本走向和市场刚需，必将为安全行业提供广阔的用武之地。

启示四

紧跟创新，保障发展。

无论是安全研究还是安全产业，都必须紧跟科技进步和应用创新，才能服务好发展，保障好发展。就安全研究而言，展望未来，研究的重点要更加紧扣AI进化中的安全风险，研究的成果要更好支撑促进发展的治理策略，研究的路径要更多采用多学科，跨学科的研究方法。

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

吴世忠院士：对生成式AI安全研究的九点观察

欧盟和新加坡签署有关AI安全合作的行政安排

警惕AI网络安全应用的“毒蘑菇陷阱”

美智库：支持开源人工智能的国家将获得战略安全优势