2023年10月,英国科学、创新和技术部发布一系列与“前沿人工智能的能力和风险”有关的报告,概述了前沿人工智能技术发展带来的能力、风险以及跨领域的挑战,并特别指出其滥用、社会危害和失控等风险。同时,报告还特别对生成式人工智能的安全风险进行了讨论。
一、前沿人工智能的能力现状
前沿人工智能(Frontier AI)可以执行各种任务,除可以生成文本外,还可以生成和处理图像、视频和声音等数据类型,并且越来越多地集成到对经济和社会产生广泛影响的系统中。在经济领域,前沿人工智能可以利用训练数据中的信息进行交谈、编写程序代码、生成可信的新闻文章、解决高中竞赛中的数学问题等。当与其他工具和软件相结合时,前沿人工智能模型可以更加自主而不需要人类参与,例如,通过互联网查找特定信息、编写代码来操作机器人硬件等。
通过为前沿人工智能模型提供更好的提示、更好的工具以及更好的脚手架软件程序等,可使人工智能模型的能力得到进一步增强。但前沿人工智能系统也存在一定的局限性,包括:产生看似合理但不正确的答案;在需要长期规划或采取大量连续步骤的任务上面缺乏前后一致性;缺乏完成实体经济领域相关任务所需的特定背景信息等。
二、前沿人工智能的能力将获得持续提升
人工智能能力的不断发展得益于三个关键因素的改进:计算能力、数据和底层算法。随着计算和数据的增加,人工智能模型的性能随着模型规模的扩大而提高,但人类目前无法可靠地提前预测前沿人工智能模型在接受更多计算和数据训练后将获得哪些特定的新功能。随着未来几年对人工智能的投资将持续快速增长,前沿人工智能将进一步加速发展。加速这一进展的研究方向包括:提高训练数据的数量和类型,提高挑战科学问题的能力并降低成本;进行多模态训练,增强不同模态间的协同作用以及处理和生成文本、图像和音视频的潜力;增强前沿人工智能的自主性,用更少的时间做更充足的风险防范准备。
三、前沿人工智能的特定风险
前沿人工智能可能加剧特定风险技术和条件的交叉风险因素和社会危害、滥用和失控等个别风险因素。
1. 交叉风险
人工智能的开发、评估等存在许多长期技术挑战。一是开放领域的复杂性使得设计安全系统或详尽评估所有下游用例变得困难。人工智能经常以意想不到的方式使用其行为指令从而带来潜在危险。即使找到了这种问题的技术解决方案,鉴于人们价值观的巨大差异,仍然存在进一步的社会和技术挑战。二是难以对前沿人工智能系统的安全性进行有效评估。前沿人工智能系统对其开发人员来说是“黑匣子”,人们对产生这些系统的内部机制了解不足。当前的机制可解释性(mechanistic interpretability)对于人工智能模型的理解不可靠或具有误导性,而行为评估无法详尽地探索所有可能的漏洞,无法进行可靠评估,使用形式验证(formal verification)技术的人工智能系统缺乏更好的方法来指定人类认为输入的哪些方面与行为相关或不相关。三是追踪人工智能系统的部署或使用方式存在较大困难。开源部署方式可使模型永久可供其他参与者复制、微调和使用,但可能被滥用。应用程序编程接口(API)的部署方式能实现对模型的控制并监控其使用,但因使用时需要的技能和资源较少,会降低滥用门槛。在供应链的各个层面都存在被故意利用或意外忽视的漏洞。四是人工智能的安全标准尚未制定,需要建立一套成熟的生态系统。人工智能开发者“逐底竞争”的方式有可能会加速系统的开发,但是对于安全措施的投资不足。前沿人工智能开发商老牌企业拥有先进计算资源和专业人才,这种市场力量的高度集中可能会削弱竞争,减少创新和消费者的选择。
2. 社会危害
人工智能产生的社会危害首先体现在信息环境恶化。首先,前沿人工智能可以廉价地生成对人物和事件的错误描绘,机构依赖不准确或误导性的公开信息有可能做出错误的决策,并降低民众对真实信息的整体信任度。其次,人工智能可能会造成劳动力市场混乱,加速对教学、医学等工作的影响,带来某些行业工人的流失等。最后,前沿人工智能模型可能会因训练数据包含偏见而造成公平和道德使用方面的问题。随着前沿模型的发展,人工智能会生成更多的网络内容,未来人工智能系统使用的训练数据将会包括越来越多带有偏见的人工智能生成内容。
3. 滥用风险
前沿人工智能会带来滥用的风险。首先,一些人可能会利用生物和化学供应链中的漏洞,使用前沿人工智能设计生物或化学武器,为军民两用科学的发展带来风险。未来的前沿人工智能可能会具有更丰富的内容级知识(content-level knowledge)、推理和制订复杂计划的能力,但是目前并不清楚前沿人工智能是否会在网络搜索的基础上增加额外功能。其次,前沿人工智能很可能会显著加剧现有的网络风险,使网络入侵更快、更有效且规模更大,加大对能源、交通、医疗保健和金融以及个人的危害程度。而且,前沿人工智能系统使网络犯罪分子能够有效诈骗和窃取登录凭证,使防病毒软件更难检测到网络攻击。人工智能系统更快的执行力和自主执行能力等会降低人类对网络攻击的防御效率。前沿人工智能在集成到更广泛的系统中时也会带来安全漏洞。此外,前沿人工智能还可能以低廉的价格被用来故意传播虚假信息,造成社会混乱。
4. 失控风险
由于经济和地缘政治因素,人类可能越来越多地将重要的决策控制权交给人工智能系统,而先进人工智能系统将寻求增加自身影响力并减少人类的控制。在此情况下,先进通用人工智能系统有可能会失去控制,而且这种失控可能是永久性和灾难性的。当前前沿人工智能的风险可能是通过操纵人类或利用软件漏洞而产生的,并且已经显示出能够进行自主操控、网络犯罪、自主复制和适应方面的早期迹象。
四、生成式人工智能的安全风险
生成式人工智能会增强恶意行为者的能力并提高攻击的有效性,从而增加安全风险。到2025年,生成式人工智能将会发布性能更高、规模更大的大语言模型(LLM)。先进生成式人工智能方面的科研人员、资金、硬件、计算和数据、研究和前沿模型主要集中在私营人工智能公司手中。开源生成式人工智能由于降低进入壁垒而快速扩散,在增加可访问性的同时也可能会带来全球安全方面的影响。
到2025年,生成式人工智能更有可能放大现有风险,而不是创造新风险。这些风险会在数字、政治和社会、物理等三个领域有所重叠。
首先,数字风险是最有可能发生且影响最大的风险,相关的威胁包括网络犯罪和黑客攻击。
其次,政治体系和社会面临的风险更有可能增加到与数字风险一样严重,相关的威胁包括操纵和欺骗民众,削弱公众对政府的信任,同时加剧两极分化和极端主义。
最后,物理风险会随着生成式人工智能嵌入关键基础设施和建筑环境中而上升,如果没有足够的安保措施,人工智能会造成新的失败风险和易受攻击的漏洞。这些风险不会单独发生,而且还有可能会加剧并影响其他风险。此外,到2025年,生成式人工智能有可能会加速量子计算、新型材料、电信和生物技术等领域的融合,这些融合未来会增加新的风险。
五、结论
了解人工智能的功能和风险对于释放其优势至关重要,合理管控人工智能将有助于许多领域的生产力和创新,但如果管理不当则会成为安全风险的倍增器。人类应积极应对风险,而不是等待风险发生。由于缺乏足够的资金用于开发有足够护栏的先进人工智能,缺少足够的安全标准,政府无法全面了解私营部门的进展等因素,人工智能肯定会存在意想不到的风险。世界各国必须对风险达成共识,以便能够有效协调,尽可能地预防和减轻风险,并继续在前沿人工智能安全方面进行国际合作。
编译:中国科学院文献情报中心 王保成 董瑜
审校:中国科学技术信息研究所 张丽娟
来源:《科技参考》2023年第67期
文章观点不代表主办机构立场。
声明:本文来自科情智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。