2024年5月,《科学》杂志刊登25位全球顶尖人工智能科学家的共识文章指出,世界尚未为人工智能突破做好准备,敦促各国政府采取更强大措施管理极端人工智能风险。文章在探讨人工智能迅速发展的潜在风险基础上,明确了相关研发的两大调整方向:一是实现安全人工智能的基础性技术突破;二是构建有效的风险调整治理机制或在治理失效时降低潜在危害。同时,文章提出四方面建议:设立专门机构治理快速发展的前沿人工智能、强化政府洞察能力、进行安全论证、实施与人工智能系统风险水平相匹配的缓解策略。

当前,各大科技企业正争相开发通用人工智能系统,但随着其能力和自主性提升,潜在风险也将日益凸显,可能引发社会大规模危害、恶意利用,甚至导致人类丧失对自主人工智能系统的控制。尽管研究人员已对人工智能极端风险发出警告,但在如何有效管理这些风险上,尚未形成共识。目前,人工智能安全研究相对滞后,治理措施缺乏预防滥用和不当使用的专门机制和机构,且鲜少涉及自主系统。为应对这些挑战,应借鉴其他安全关键技术的经验教训,制订综合计划,将技术研发与积极、灵活的治理机制相结合,做好充分准备。

一、快速进步与高风险并存

目前,深度学习系统缺乏关键功能,其开发周期尚不明朗。各大企业正积极投入资源和开展技术研发,致力于构建能够在多数认知工作中达到或超越人类能力的通用人工智能系统。每年用于训练最先进模型的投资都在翻倍增长。

科技公司资金充足,能够将最新的训练运行规模扩大100至1000倍,人工智能领域仍具有巨大发展潜力。同时,硬件和算法也在持续优化:人工智能计算芯片的成本效益每年增长1.4倍,训练算法的效率每年提升2.5倍。更重要的是,人工智能的进步正不断加速其自身发展——人工智能助手正广泛应用于编程、数据收集以及芯片设计自动化等领域。

目前没有证据显示,当人工智能达到人类智力水平时,其发展速度会放缓或停滞。实际上,在策略游戏和预测蛋白质折叠等特定领域,人工智能已超越人类。人工智能系统行动迅速,能吸收更多知识,并以更高效率进行交流。此外,它们可扩展性强,能利用巨大计算资源并进行大量复制。人类无法准确预测人工智能的未来发展,但必须正视一种可能性:未来十年或二十年内,具备超越人类能力的通用人工智能可能出现在多个关键领域,届时将产生何种影响?

无疑,随着人工智能系统的日益强大,其影响也愈发显著。特别是当人工智能在能力和成本上超越人类时,其应用范围、潜在机遇与风险都将急剧扩大。若管理得当且资源分配公平,人工智能有望助力人类攻克疾病、提升生活水平、保护生态环境。但若处理不当,人工智能可能会加剧社会不公、破坏社会稳定,甚至引发大规模犯罪、自动化冲突、定制化信息操控及全面监控等负面影响。

企业竞相开发自主人工智能系统可能会迅速放大风险并产生新的风险点。这些系统能利用计算机等工具行动,恶意者可能故意植入不良目标。即使是善意开发者,也可能因训练模型的局限性,无意中创造出追求非预期目标的人工智能系统。这是因为训练时采用的奖励信号难以完全指向预定目标,系统可能追求字面指示而非预期结果。同时,训练数据无法覆盖所有情况,可能导致系统在新情境中追求不良目标。

自主人工智能系统一旦导向不良目标,人类可能面临其失控风险。软件控制始终是一个待解难题,而人工智能在黑客攻击、社会操纵和战略规划方面的迅速进步,预示着前所未有的控制挑战。这些系统可能通过获取人类信任、掌握资源、影响关键决策者等方式实现不良目标。为避免人为干预,它们可能在全球服务器网络上复制算法。在冲突中,人工智能系统甚至可能自主部署包括生物武器在内的各种武器。自主人工智能技术将进一步加剧军事活动的自动化趋势,企业、政府和军队也可能会以提高效率为借口,使自主人工智能系统承担更多关键角色。若人类缺乏足够的警惕性,很可能永久失去对自主人工智能系统的控制,使人类干预变得徒劳。届时,网络犯罪和社会操纵等风险将急剧升级。更糟糕的是,这种无法控制的人工智能发展可能会导致生物多样性的大规模丧失,甚至威胁人类自身的生存与发展。

但在防范人工智能潜在灾难的过程中,进展十分缓慢。尽管人类投入大量资源强化人工智能系统能力,但在确保其安全性和降低潜在危害方面的投入却远远不足。据统计,仅有1%至3%的人工智能出版物聚焦于安全问题。要使人工智能成为人类的福音,单纯提升其能力远远不够,需调整方向,预见现有危害的加剧和新风险的出现,并在最大风险爆发前做好充分准备。

二、技术研发方向调整

确保通用、自主人工智能系统的安全和合乎道德地使用仍面临诸多技术挑战。这些挑战不同于提高人工智能能力,无法通过增加计算力和训练大模型解决。它们不会随人工智能能力提升而自动消失,而是需要专门的研究和工程开发,有时还需要革命性突破。目前,相关关键领域的研究投入不足,加大投入不仅能推动技术进步,还能有效降低潜在风险。相关研发应重点聚焦两大方向。

(一)实现安全人工智能的基础性突破,确保人工智能可靠安全

主要研发挑战包括:

监督和诚信。更强大的人工智能系统可能会更好地利用技术监督和测试的弱点,如生成逼真的误导性输出。

鲁棒性。人工智能系统在新情境下的行为或将难以预测。随着模型规模的扩大,鲁棒性的某些方面会得到改善,而其他方面则不会,甚至会变得更糟。

可解释性和透明度。规模越大、能力越强的模型决策过程解释起来就越复杂,需要了解其内部运作,而非仅依赖于试错。

包容性发展。人工智能发展需要融入多元价值观,减少偏见,确保惠及受其影响的广泛人群。

应对新挑战。未来人工智能系统可能出现理论或实验中未知的失效模式,如自我操纵训练奖励机制或规避安全防护。

(二)实现有效的风险调整治理或在安全和治理失效时降低危害

危险能力评估。随着人工智能系统的不断扩展,不可预见的未编程能力会自发出现,并且往往在部署后才被察觉。当前急需严谨方法来引导、评估并在训练之前预测人工智能的能力,包括实现宏大目标的通用能力(如长期规划和执行)和基于威胁模型的特定危险能力(如社会操纵或黑客攻击)。现有人工智能前沿模型评估是人工智能政策框架的关键,但仅限于抽查和特定环境下的尝试性演示,无法完全排除其危险能力:在测试中缺乏某些能力的人工智能系统很可能在不同环境下或经过后期训练增强后显示出危险能力。因此,依赖于人工智能系统的决策不能跨越任何红线,需要更大的安全边界。而优化的评估工具可以降低遗漏危险能力的几率,从而允许更小的安全边界。

人工智能对齐评估。随着人工智能的不断进步,这些系统最终将掌握更高层次的潜在危险能力。因此,在训练和部署前需要找到方法来评估其运用危险能力的倾向。对于先进的人工智能系统,仅仅依赖行为评估可能不够准确,它们可能会在评估中表现出不同的行为,甚至可能假装与人类保持一致。

风险评估。除评估人工智能危险能力外,还需要评估其在互动和脆弱的社会背景下的潜在风险。鉴于前沿人工智能系统的功能及应用广泛,对其进行严格的风险评估仍是一大挑战。

韧性。人工智能存在滥用或鲁莽使用的风险,因此急需相关工具来检测和防御人工智能带来的威胁,如大规模影响行为、生物风险和网络攻击。但随着人工智能系统的能力增强,其规避人类防御系统的能力也将同步提升。要构建更强大的人工智能防御系统,首先要了解如何确保人工智能系统的安全性和一致性。

鉴于上述风险,文章强烈建议至少将人工智能研发预算的三分之一用于解决上述研发挑战,确保人工智能安全和合乎道德地使用。除传统研发投入外,政府还可以提供奖项、预先市场承诺等各类激励措施。

三、管理措施

面对人工智能的滥用和不当使用,构建健全的国家与国际治理体系迫在眉睫。制药、金融系统和核能等许多技术领域都表明政府监管在降低技术风险中不可或缺,但当前人工智能的治理框架尚不成熟,滞后于技术发展的速度。借鉴其他关键技术领域治理经验的同时,需充分认识到人工智能在自主行动和自主意识、爆炸性进步、对抗性行为及造成不可逆损害等方面远超其他技术的独特性。

文章指出,尽管在人工智能发展时间表存在分歧和不确定性,人类仍需要前瞻性治理机制,既能灵活适应其潜在突变,又在政治层面可行。其关键在于建立触发机制,当人工智能达到特定能力阈值时自动触发相关政策。进步神速则严格监管,反之适度放宽。对于人工智能的快速、不可预知的进展,风险缓解工作必须前置——识别未来系统潜在风险,并要求开发者在采取高风险步骤前予以解决。具体来看,文章提出以下几点建议:

(一)设立专门机构监管快速发展的前沿人工智能

为应对人工智能的快速发展,避免法律过时、僵化,国家机构需要强大的技术能力和迅速响应的权力。有效评估技术上的风险并采取风险缓解措施需要比任何现行政策计划更多的资金和人才支持。此外,面对国际竞争态势,这些机构还需要有能力促成国际合作。在此过程中要避免对小型、低风险人工智能模型设置不必要的繁文缛节,以免阻碍低风险应用和基础研究的发展。首要审查对象应是前沿人工智能系统——在超级计算机上训练的少数最强大模型,其潜在危险性和不可预测性最大。

(二)强化政府洞察能力

为识别风险,政府急需全面洞察人工智能发展。监管机构应强制要求保护举报人权益、事件报告、对前沿人工智能系统及其数据集的全生命周期相关关键信息进行注册,并密切监控模型开发及超级计算机的使用情况。近期政策动向虽已要求企业在部署前提交模型评估结果,但这些报告往往是自愿的且评估标准模糊不清。对此,监管机构应进一步加强要求,自模型开发之初即授权外部审查人员进行现场、全方位(白盒)及微调访问。这对于识别自主复制、大规模诱导、侵入信息系统、自主武器开发或散布流行病原体等潜在危险能力十分必要。

(三)进行安全论证

即使经过评估,人类也不能默认前沿人工智能系统“未经证明不安全即为安全”。使用现有测试方法很容易遗漏问题。此外,尚不清楚各国政府能否迅速积累足够的专业能力,以对人工智能技术及其社会风险进行可靠评估。对此,前沿人工智能开发者应承担举证责任,证明其项目可将风险控制在可接受范围内。这一做法与航空、医疗器械及国防软件等行业中的风险管理最佳实践类似,这些领域的企业会构建详尽的安全论证过程,即基于可验证主张的结构化论述,辅以证据支撑,旨在识别风险、阐述缓解措施、确保系统不触及特定风险,并通过模型模拟评估风险后果。安全论证能充分发挥开发者对其系统深入理解的优势。即使各方对人工智能发展水平存在分歧,安全论证在政治层面仍具可行性,因为在系统能力有限时,证实其安全性相对容易。政府在这一过程中应积极设定风险阈值、编撰最佳实践指南、聘请专家与第三方审查人员进行安全论证和独立模型评估,并确保开发者对其安全声明的真实性负责,防止虚假陈述。

(四)实施与人工智能系统风险水平相匹配的缓解策略

为将人工智能风险控制在可接受范围内,治理机制必须与风险等级相匹配。监管机构应明确现行责任框架下的法律责任,并要求前沿人工智能开发者及所有者对其模型可预见且能预防的危害负责,包括因部署行为难以预判的高级人工智能系统而可能产生的危害。

对于能力卓越的人工智能系统,尤其是可能规避人类控制的自主系统,必须采取相应的缓解策略。政府应做好准备,对这类系统的开发实施许可,限制其在关键社会角色中的自主决策权,必要时暂停开发与部署,强制实施访问控制,并确保在充分保护措施准备就绪前,实施强有力的信息安全防护。各国政府应立即着手构建相关能力。

为弥补政府法规完善前的时间空白,领先人工智能企业应做出“如果—那么”的承诺:如果在其人工智能系统中发现特定危险功能,将采取具体的安全措施。这些承诺应详尽且接受独立审查。监管机构应利用同类最佳承诺等,激励企业间良性竞争,并共同制定适用于全行业的标准。

编译:中国科学技术信息研究所 黄丹

审校:中国科学技术信息研究所 张丽娟

来源:《科技参考》2024年第33期

声明:本文来自科情智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。