AI safety和AI security是在人工智能系统的开发和部署中扮演着独特但相互关联角色的基本方面。 AI security主要围绕着保护系统以确保机密性、完整性和可用性,包括防范未经授权访问、数据泄露以及与C.I.A.三元原则一致的干扰。

另一方面,AI safety涉及更广泛的考虑,涉及人类福祉、伦理影响和社会价值观等问题,超越了技术安全措施的限制。

CSA 人工智能安全倡议(AI Safety Initiative)的建立标志着解决围绕AI Safety存在的多方面挑战迈出了重要一步。尽管最初重点放在通过即将推出的成果来关注AI security上,但 CSA人工智能安全倡议(AI Safety Initiative)的长期目标是同时涵盖 AI safety和AI security。

本文针对safety和AI security的差异化进行了阐述。通过众多对话,明显地看到澄清这些领域之间微妙差异对于促进人工智能社区内形成深入理解至关重要。

AI Security:人工智能生态系统的CIA  

AI security解决了与受损的人工智能系统相关的潜在风险。为了解决这些风险,C.I.A.三元概念——机密性、完整性和可用性——作为AI security的基础框架。

1.1 AI生态系统中的保密性

保密性指的是保护敏感信息免受未经授权的访问或披露。在人工智能生态系统中,保密性涵盖了各个方面,包括数据隐私、模型安全以及防止信息泄漏。

数据隐私

人工智能系统在训练和推理过程中严重依赖数据。这些数据通常包括个人信息、敏感商业数据或其他机密信息。确保这些数据的保密性对于防止隐私泄露、身份盗窃或滥用敏感信息至关重要。

差分隐私、安全多方计算和同态加密等技术可用于保护训练数据的隐私性。此外,强大的访问控制机制和安全的数据存储实践对于在整个生命周期中维护数据的保密性至关重要。

模型安全

AI 模型本身可以被视为知识产权,可能包含敏感信息或专有算法。保护这些模型免受未授权访问、盗窃或逆向工程是维护 AI 生态系统机密性的关键。

可以采用模型混淆、水印技术和安全隔离区域(如 GPU 中的可信执行环境)等技术来保护 AI 模型免受未授权访问或篡改。此外,安全部署和执行环境以及强大的访问控制机制对于维护模型安全至关重要。

防止信息泄漏

人工智能系统可能会通过其输出或交互无意中泄露敏感信息。例如,训练在敏感数据上的语言模型可能会在生成的文本中无意中透露机密信息,或者计算机视觉模型可能会无意间从图像中暴露个人信息。

诸如输出过滤、差分隐私和安全多方计算等技术可以帮助降低人工智能系统信息泄漏的风险。此外,强大的监控和审计机制可以帮助检测和减少潜在的信息泄漏。

1.2 AI生态系统中的完整性

完整性指的是AI生态系统中数据、模型和输出的可信度和准确性。确保完整性对于维护AI系统的可靠性和信任度至关重要,同时可以预防与受损或被篡改的AI组件相关的潜在风险。

数据完整性

AI系统在训练和推理过程中严重依赖数据的质量和准确性。数据的损坏、篡改或中毒可能导致错误或有偏见的AI输出,从而破坏整个AI生态系统的完整性。

诸如数据采集同意管理跟踪、安全数据来源、数据验证和完整性检查机制等技术可以帮助确保数据在其生命周期内的完整性。此外,强大的访问控制和审计机制可以帮助检测和防止对训练数据的未授权修改或篡改。

模型完整性

AI模型本身可能会受到各种形式的攻击,例如对抗性示例、模型提取或模型反演攻击。这些攻击可能会损害AI模型的完整性,导致错误输出或敏感信息泄漏。

对抗性训练、模型水印和安全隔离等技术可以帮助减轻模型完整性攻击的风险。此外,强大的监控和审计机制可以帮助检测和减轻潜在的模型完整性违规行为。

输出完整性

即使AI生态系统中的数据和模型是安全的,AI系统生成的输出仍可能受到损害或篡改。这可能导致下游后果,如误传信息、基于错误输出的决策制定,或注入恶意内容。

输出验证和调节、安全溯源跟踪和数字签名等技术可以帮助确保AI输出的完整性。此外,强大的监控和审计机制可以帮助检测和减轻潜在的输出完整性违规行为。

1.3 AI生态系统中的可用性

可用性指的是在AI生态系统内可靠且及时地访问AI系统、数据和资源。确保可用性对于维护AI系统的持续运行和功能性至关重要,同时可以预防与系统停机或拒绝服务攻击相关的潜在风险。

系统可用性

AI系统必须在需要时保障授权用户和流程的可用和可访问。尤其是中断或停机会产生严重后果的关键应用领域,如医疗保健、交通运输或金融系统。

负载均衡、冗余和故障转移机制等技术可以帮助确保AI系统的可用性。此外,强大的监控和事件响应流程可以帮助检测和减轻潜在的可用性问题。

数据可用性

AI系统严重依赖训练和推理数据的可用性。数据不可用或无法访问可能严重影响AI系统的性能和功能。

数据复制、安全备份和分布式数据存储等技术可以帮助确保AI生态系统内数据的可用性。此外,强大的访问控制和数据恢复机制可以帮助在面临潜在的中断或攻击时维持数据的可用性。

资源可用性

资源可用性是构建成功AI系统的绝对基础。AI模型(特别是深度学习)对专用硬件的需求需要访问GPU、TPU或类似的高性能计算资源。同时,用于训练和优化AI模型的大型数据集需要大量的存储容量,并提供快速数据检索以保持高效的工作流程。云计算在这个领域提供了灵活性,能够扩展或缩减资源以满足AI工作负载经常波动的需求。

资源池、负载均衡和自动扩展等技术可以最大程度地提高了现有硬件的效率和可靠性,而积极的监控和容量规划可以确保未来资源需求被预测和解决。忽视资源可用性的任何方面都会使AI计划陷入危机;计算限制会增加模型训练时间,系统超载会降低准确性,当AI系统无法访问必要资源时,会导致增长停滞。通过战略性地资源管控,组织可以使其AI系统发挥最大潜力,最大化创新,并释放AI系统的真正价值。

AI Safety的一些热门话题

与相对更为成熟和明确定义的术语和分类相比,AI Safety在过去相对较少被探讨,缺乏共同的定义、分类或术语。要全面理解其复杂性,我们必须从审视几个关键话题开始。因此,第三部分将深入探讨当代文献中关于AI safety的一些热门话题。

2.1 专家提出的担忧

像Geoffrey Hinton这样的知名人士已经强调了人工智能系统的存在风险、意外后果、价值一致性挑战、缺乏透明度以及偏见等问题。这些问题突显了在AI发展中解决安全方面问题的重要性。

人工智能带来的生存风险杰弗里-辛顿(Geoffrey Hinton)等专家提出的主要担忧之一是,人工智能系统可能会给人类带来生存风险。超级智能人工智能超越人类智能并以危害人类生存的方式行事的概念一直是人工智能界争论的话题。要应对这些生存风险,就必须认真考虑人工智能发展的设计、控制机制和伦理框架

意外后果

另一个值得关注的重大问题是,部署人工智能系统可能会产生意想不到的后果。随着人工智能算法变得越来越复杂和自主,有可能出现意想不到的结果,从而产生深远的影响。开发人员必须通过严格的测试、验证过程以及在现实世界场景中对人工智能系统的持续监控来预测和减轻这些意外后果。

价值一致性挑战

确保AI系统与人类价值观和伦理原则保持一致是AI发展领域面临的关键挑战。价值一致性问题涉及AI系统能够做出符合社会规范、道德标准和人类偏好的决策。解决价值一致性挑战需要AI研究人员、伦理学家、政策制定者和利益相关者之间的多学科合作,以建立清晰的伦理AI设计准则和标准。

缺乏透明度

AI算法和决策过程缺乏透明性一直是专家和普通公众关注的问题。操作没有明确解释或问责机制的黑盒算法引发了人们对AI系统中公平性、问责制和信任的质疑。提高AI发展的透明度包括推广可解释的AI技术、对数据来源开放访问以及算法审计实践,以确保在决策过程中的问责制和公平性。

AI系统中的偏见

AI系统中的偏见是一个普遍存在的问题,可能在医疗保健、金融、刑事司法和招聘等各个领域中延续歧视、不平等和不公正。在训练数据、算法设计或决策过程中存在偏见可能导致不公平的结果,并加强现有社会不平等。减轻AI系统中的偏见需要采取积极措施,如收集多样化数据集、偏见检测工具、关注公平性的算法以及持续监测来识别和解决与偏见相关的问题。

2.2 一些实例

招聘中的算法偏见、面部识别错误以及涉及自动驾驶车辆的事故等真实世界案例突显了积极应对AI safety挑战的迫切需要。这些例子揭示了与人工智能技术相关的潜在风险,并强调了采取措施确保负责任和道德人工智能部署重要性。

招聘中的算法偏见

招聘过程中存在的算法偏见引发了人们对招聘实践中的公平性和平等性的关注。用于筛选求职者的AI系统可能会无意间延续历史数据中存在的偏见,导致歧视性结果。解决这个问题需要开发没有偏见的算法,确保多样化培训数据集,并实施透明度措施来减轻偏见并促进招聘过程中机会均等。

面部识别错误

由于面部识别技术出现误认和不准确情况,特别是涉及隐私和公民自由的问题而受到严格审查。 面部识别系统误认可能带来严重后果,包括错误逮捕或侵犯个人权利。为解决这一挑战,需要提高面部识别算法精度、对数据使用进行严格监管以及制定指导原则管理面部识别技术的应用。

涉及自动驾驶车辆事故

涉及自动驾驶车辆事故突显了围绕AI驱动交通系统展开争论时所关注到的安全问题。 自主行驶算法复杂性以及系统故障的可能性可能给乘客和行人带来风险。 确保自动驾驶汽车安全需要进行严格测试、验证流程,并建立监管框架以最小化事故并增强公众对自主行驶技术信任感。

2.3 过度信任中央集权的风险

人工智能领域虽然有着巨大的潜在好处,但也变得高度集中。少数几家大型科技公司对先进人工智能模型的开发和部署拥有重要控制权。尽管这些公司已经采取了措施来解决公平性和道德考量问题,但过度信任它们自我调节可能是不明智的。

历史上充满了强大实体并非总是为社会利益行事的例子。建立强有力的监管框架和监督机制以确保安全和合乎道德地使用人工智能的必要性正变得越来越明显。人工智能开发的去中心化,有可能通过开源计划和合作研究社区来实现,这有助于降低与集中式权力结构相关的风险。

去中心化的诱惑在向我们招手,它提供了一种打破中心化权力结构束缚的方法。区块链技术具有分布式分类账和透明度原则,可为去中心化人工智能生态系统的发展提供支持。去中心化自治组织(DAOs)可以促进合作研究社区和开源计划,削弱任何单一实体的影响力。通过接受去中心化,我们或许有可能将人工智能的发展转向更加民主的模式,优先考虑公共利益,并保护人工智能免受不受控制的潜在滥用。

2.4 AI一致性:问题的核心

AI safety的核心挑战在于一致性问题。我们如何确保日益强大的AI系统中嵌入的目标和价值与人类最大利益相一致?即使是意外的不一致也可能带来灾难性后果。如果我们承认在道德原则上缺乏全球性的绝对共识,这项任务的复杂性就会变得难以承受。不同的道德哲学、文化差异和相互竞争的政治意识形态,使得创建完全一致的人工智能系统成为一项艰巨的任务,甚至是不可能完成的任务。

在这种情况下,探索去中心化的方法可能很有价值。也许基于区块链的共识机制可以帮助逐渐形成人工智能治理的集体价值观。由不同观点驱动的去中心化社区可能会更好地驾驭人工智能协调的复杂性,降低由一个小团体甚至个人来定义驱动强大人工智能系统的伦理框架所带来的风险。

2.5 AI与核武器类比

埃隆·马斯克在2018年对AI的危险性超过核武器的警告突显了这种强大技术固有潜在风险。专家们已经对AI和核武器技术进行了比较。两者都具有巨大的潜在好处,但如果被滥用,也会带来毁灭性后果。核扩散的历史作为对强大技术不稳定影响的鲜明提醒。

虽然AI与核武器相比有局限性,但它有助于强调围绕这项技术开展国际合作和建立强有力的治理框架的迫切需要。要确保人工智能始终是一股善的力量,就需要全球合作,防止其被用于战争或其他恶意目的。

AI和核武器技术之间的一个关键区别在于AI的自我复制潜力。如果不加控制,强大的AI系统可能会以难以管理或控制的方式传播。这种不受控制的传播给负责任的AI发展增加了一层独特的紧迫性。

2.6 机器人、主体行为和存在风险

“机器人”或具有主体性的AI的概念——即能够自主设定目标并采取行动实现这些目标的系统——引发了关于自主权和监督的深刻问题。随着AI的进步,具备自主学习和适应能力的系统,确保这些系统始终受限于安全协议并在适当的人类监督下运行显得至关重要。假设中的“回形针最大化器”是对风险的鲜明提醒:一个被赋予最大化回形针生产任务的AI可能会不懈地追求这一目标,最终将所有可用资源(包括对人类至关重要的资源)转化为回形针。

OpenAI与Q*算法的合作加剧了人们对AGI(人工通用智能)和主体行为发展的担忧。该算法整合了规划、反思、基于奖励函数的过程选择和自主性,表明AI系统正朝着不仅仅是对环境做出反应的方向发展。它们可以主动制定计划并调整自己的行为,潜在地模糊了人类控制的界限。埃隆·马斯克最近对OpenAI提起的诉讼进一步突显了这些担忧的严重性,引发了关于OpenAI是否已经拥有可能带来未知风险的AGI能力的问题。

重点必须转向在AI开发的早期阶段开发强大的安全机制和监督框架。这应包括能够中断潜在有害的AI行为,并将对人类价值观的深入理解融入这些新兴系统中。

OpenAI最近发布了AI准备框架,旨在增强前沿AI模型的安全性。这一框架涉及各种安全和政策团队合作,以应对与人工智能相关的风险。安全系统团队专注于防止当前模型的滥用,如ChatGPT,而SuperAlign则专注于确保未来超智能模型的安全。准备小组强调以科学和事实为基础的准备,通过严格的评估评估新出现的风险,并超越假设情景,转向数据驱动的预测。该框架的关键要素包括跟踪灾难性风险水平,寻找未知风险,建立安全基线,以及主动改进技术和程序安全基础设施,确保只有风险水平可接受的模型才能进一步发展。此外,透明的研究实践和整个人工智能界的开放合作对于应对这些复杂的挑战至关重要。如果做不到这一点,就有可能将控制权拱手让给越来越强大的人工智能系统,而这些系统所追求的目标可能与我们自身的福祉相冲突。

2.7 开放式与封闭式人工智能模型

在高级人工智能模型发布的开源与闭源方法之间做出选择,是一个复杂的两难选择。一方面,开源模型促进了透明度、协作和快速创新。更高的可访问性使研究人员和开发人员能够识别偏差、改进技术,并为不同领域的有益用例量身定制。另一方面,封闭式模型提供了对潜在滥用更大的控制权。通过限制访问权限,开发者和公司可以更好地监控使用情况、实施保障措施,并有可能降低人工智能被恶意行为者武器化的风险。然而,如果知识和资源没有共享,则封闭式方法也可能会减缓进展并在人工智能研究社区内创建障碍。

最终,在混合模型或分层访问系统中可能存在平衡解决方案。这些将鼓励负责任的研究与开发,并根据需求、信誉以及与特定项目相关联的潜在风险允许各种级别的访问权限。在负责任地推动人工智能发展过程中找到公开性与安全性之间正确平衡仍然是一个持续挑战。

2.8 人工智能生态系统中的保密性

本小节列举了前沿模型中解决AI safety问题的三种突出新方法。这是一个快速变化的领域,新的创新将不断涌现。以下仅为例子:

Meta JEPA方法

Meta JEPA方法,特别是通过V-JEPA和I-JEPA模型,以多种方式增强了AI safety。首先,I-JEPA模型对语义特征学习和内部世界模型的强调增强了系统对复杂数据结构的理解,增强了系统检测数据中异常或恶意模式的能力。此外,I-JEPA模型的计算效率确保了可以实施安全措施而不会带来显著的性能开销,简化了安全协议的无缝集成。最后,通过将I-JEPA模型开源,Meta鼓励AI社区内的合作,进一步加强安全措施,并共享有效保护AI系统的最佳实践。

Geoffrey Hinton的Forward-Forward算法

由Geoffrey Hinton开创的Forward-Forward算法代表了与传统反向传播方法的重要分歧,提供了一种对神经网络学习的新方法,对加强AI安全措施具有重要意义。这种创新技术通过用两次前向传递(一次处理真实或正数据,另一次包含由网络本身内部生成的负数据)取代传统的前向和后向传递,简化了学习过程。网络中的每一层都有自己的目标函数,对正向数据强调高优,对负向数据强调低优。

这种方法不仅通过消除对每一层内部运作的精确知识的需求简化了学习,而且在缺乏详细信息的情况下增强了适应性,从而减轻了与不完全理解相关的潜在风险。此外,该算法的效率体现在它能够简化正向传递中的学习,并通过网络进行视频管道处理,而无需存储活动或传播导数,从而降低了计算开销。

此外,在无法获得完美的前向传递知识的情况下,前向算法作为强化学习的可行替代方案,扩展了人工智能训练方法的工具箱。虽然该算法在某些任务上的泛化效果可能不如反向传播算法,但它能够提供对生物学上可信的学习机制的见解,这为推进AI safety方面的考虑带来了希望。通过提供高效训练模型的替代方法,Forward-Forward 算法有助于建立一个更强大的框架,确保人工智能系统在各种应用中的安全性和可靠性。

机械可解释性

AI中的机械可解释性涵盖了理解机器学习系统如何做出决策以及设计具有人类可理解决策的系统,这是AI safety的关键方面。这一概念至关重要,因为它赋予了人类操作员验证AI系统按照预期运行的能力,并为意外行为提供解释。

随着机器学习系统在各个领域越来越多地用于自动决策,可解释性的缺失构成了一个重大挑战,特别是在医学诊断、招聘流程和自动驾驶等高风险环境中。现代机器学习系统的复杂性使得对其决策过程进行分析和理解变得困难,引发了对问责和透明性的担忧。通过增强AI中的可解释性,人类操作员可以更有效地监督和验证AI系统的决策,确保与伦理标准和期望结果的一致性。这种透明性不仅培养了对AI技术的信任,还有助于迅速识别和减轻潜在的偏见或错误,从而通过促进负责任地使用人工智能系统来加强AI safety。

2.9 前沿模型论坛

前沿模型论坛(Frontier Model Forum,FMF)是由Anthropic、Google、Microsoft和OpenAI共同努力建立的协作项目,旨在确保安全、负责任地推进人工智能前沿模型的发展。这个由行业领导的倡议旨在推动AI safety研究向前发展,为负责任地开发和部署前沿模型探索最佳实践,并与政策制定者和学术界建立伙伴关系,传播关于信任和安全风险的见解。此外,该论坛致力于支持利用AI解决气候变化减缓、早期癌症检测和网络安全等紧迫社会挑战的努力。

论坛通过成立咨询委员会来指导其战略和优先事项,促进有关人工智能安全和责任的跨组织对话和倡议。通过制定标准化的最佳实践、促进跨部门合作以及与利益相关方接触等努力,FMF旨在通过倡导负责任的人工智能发展和应对与先进人工智能技术相关的潜在风险,在加强人工智能安全方面发挥关键作用。虽然FMF的长期成效还有待观察,但其合作方法和促进负责任的人工智能发展的承诺,为人工智能走向更安全、更可信的未来提供了一条充满希望的道路。

2.10 地缘政治竞争

在全球舞台上争夺人工智能主导地位的激烈竞争增加了一层紧迫性,可能会危险地盖过安全和道德。各国在保持或获得技术和战略优势的驱动下,可能会优先考虑快速发展。这种压力可能会导致在开发和测试阶段走捷径,导致过早部署缺乏足够安全措施或未经充分审查潜在偏见的人工智能系统。这种仓促开发的风险很大。未经充分测试的人工智能可能会表现出意想不到的有害行为,造成从社会混乱到基础设施瘫痪等意想不到的后果。此外,争夺人工智能至高无上的地位可能会助长保密气氛,阻碍解决该技术复杂的伦理问题所需的国际合作。这种各自为政的做法可能会加剧风险,使预测和管理人工智能在全球范围内的深远影响变得更加困难。

2.11 人工智能在军事领域的应用

将AI整合到军事行动中变得越来越普遍,引发了人们对不同派别可能将其武器化的担忧。随着AI技术渗透到军事能力的各个方面,加剧冲突和引发战争的风险也随之增加。这些决策可能超越人类的认知能力,使得在军事环境中有效监督和监管AI的使用变得具有挑战性。这一演变强调了制定强有力的伦理框架和国际协议的必要性,以管理AI在战争中的开发、部署和利用,从而减轻与其不受控制传播相关的风险。

2.12 呼吁谨慎

业界重要人士也呼吁人工智能研究要谨慎和暂停。包括科学家和研究人员在内的 1100 多名知名人士签署了一封公开信,敦促所有人工智能实验室至少暂停六个月,以反思其工作对社会的影响。如此突出而统一的要求突出表明,人们日益认识到,不加控制的人工智能发展可能会导致意想不到的后果。最近,《时代》杂志也提到了呼吁美国政府“果断行动”,以避免来自AI的“灭绝级”威胁。这份报告是由美国国务院委托的。报告建议包括实施政策行动,如限制用于AI模型训练的过度计算能力,加强对AI芯片制造和出口的严格控制,以增强safety和security,尽管这些措施可能会对AI行业造成重大干扰。关于这些限制的必要性引发了争论,人们担心这可能会扼杀创新,巩固少数公司的权力,但也需要防止在军事应用中滥用AI,并减轻与不受控制的先进AI系统相关的灾难性风险。在监管和进步之间找到平衡对于确保未来安全和有益地使用AI技术至关重要。

由于篇幅过长,本文将分为上下两部分,明天将继续介绍AI Safety究竟是什么?AI Safety和AI Security之间的共同点/区别,带你更加深入了解AI Safety与AI Security。


上篇(详细)中,我们探讨了人工智能生态系统的完整性、保密性、可用性以及关于AI safety的一些热门话题,接下来我们将继续探讨AI Safety究竟是什么?以及AI Safety与AI Security的同、异。

AI Safety究竟是什么?

在探索了AI safety的各种热点话题之后,让我们综合这些内容来定义这个领域,承认其可持续和快速发展的特质,涵盖研究、技术和应用。

我们可以肯定的一点是,AI safety涵盖了广泛的关注范围,超越了传统网络安全范畴,涵盖了AI系统与人类价值观的一致性、系统可靠性、透明度、公平性和隐私保护。AI Safety通过积极的措施来解决这些问题,旨在减轻意外伤害或负面结果,并倡导人工智能系统道德伦理的开发实现和应用。

1.1 与人类价值观的一致性

AI safety中的一个基本挑战是确保AI系统与人类价值观和道德原则保持一致。随着AI系统变得更加自主并能够做出影响人类生活的决策,将适当的价值观和道德考虑灌输到这些系统中至关重要。

价值观一致性

价值观一致性指的是确保AI系统的目标和行为与人类的价值观和偏好保持一致的过程。这涉及将道德原则、社会规范和文化价值观定义并编码到AI系统的决策过程中。

逆强化学习、价值学习和宪法AI等技术旨在推导并嵌入人类价值观到AI系统中。此外,像机器伦理和道德推理等框架可以帮助AI系统应对道德困境,并做出符合人类价值观的决策。

逆强化学习

逆向强化学习是AI中使用的一种技术,用于从观察到的行为中推断出潜在的奖励函数或人类偏好。通过分析人类的行动或示范,AI系统可以学习模仿人类的决策过程和偏好。这种方法使AI系统能够将其行为与人类的价值观和偏好保持一致,增强其在各种情境下做出道德决策的能力。

价值学习

价值学习是一种专注于明确教导AI系统人类价值观的方法。通过将道德原则、道德准则和社会规范编码到AI算法的设计中,价值学习旨在确保AI系统优先考虑与人类价值观一致的行动。这种技术有助于减轻AI系统以违反道德标准或社会期望的方式行事的风险。

宪法AI

宪法AI指的是将一套基本原则或规则嵌入到AI系统中的概念,类似于管理其行为的宪法。通过在AI系统的架构中定义明确的边界、约束和道德准则,宪法AI旨在促进道德决策,并确保与人类价值观的一致性。这种方法为指导AI系统在复杂和模糊情况下的行为提供了一个结构化框架。

机器伦理和道德推理

机器伦理和道德推理框架提供了一种结构化方法来处理AI系统中的伦理困境和决策过程。这些框架为评估道德含义、考虑道德原则并做出符合人类价值观的决策提供了指导。通过将机器伦理原则整合到AI开发过程中,研究人员和开发者可以提高人工智能系统在伦理方面的鲁棒性,并促进负责任的决策。

人工智能中的其他对齐方法

除了前面提到的技术之外,人工智能中还有几种其他对齐方法,旨在确保AI系统与人类价值观和道德原则保持一致运行。以下描述了其中一些对齐方法:

奖励建模涉及明确指定AI系统应优化的奖励函数。通过提供清晰且可解释的奖励信号,AI系统可以学习做出符合人类设定的预期目标和价值观的决策。

迭代放大是一种放大人类监督和反馈来迭代训练AI系统做出决策的技术。这种方法利用人类输入来引导AI系统的学习过程,确保它们的决策反映出人类价值观和偏好。

合作逆向强化学习涉及人类与AI系统之间协作推断出人类偏好和价值观。通过参与协作学习过程,AI系统可以更好地理解并与人类价值观保持一致,并纳入来自于监督者的反馈。

对抗性对齐技术包括训练 AI 系统以预测并抵消可能导致不道德行为的恶意输入或激励措施。通过在训练期间模拟恶意场景, AI 系统可以学会抵制恶意影响,并优先考虑道德决策。

交互式学习方法涉及 AI 系统与用户之间基于实时反馈不断互动以完善决策流程。通过将用户反馈纳入到学习环路中, AI 系统可以调整其行为以符合不断发展变化中的人类价值观和偏好。

这些对齐方法,连同前面提到的技术,有助于人工智能模型和应用程序的安全开发。

人机协作

通过培养一种共生关系,让人类和人工智能系统共同合作,发挥各自的优势,并保持人类监督和控制,我们可以增强人工智能部署的道德鲁棒性。诸如“以人为中心”的系统、共享自治权和可解释性人工智能等技术在促进人类与AI系统之间有意义的合作方面发挥着重要作用,使得人们可以根据其价值观和偏好来引导并塑造AI技术的行为。

“以人为中心”的系统

“以人为中心” 系统将人监督和决策融入到 AI 过程中, 允许人提供反馈、更正 和指导 AI 算法。通过在AI工作流的不同阶段(例如数据标记、模型训练和决策)合并人的输入,“以人为中心” 系统确保了整个AI开发生命周期都考虑到了人类价值观 和偏好。这种方法通过赋予人的影响力来基于他们的专业知识和道德判断影响 AI 系统行为, 增强了透明度、问责制和符合伦理标准。

RLHF的关键概念

训练方法:RLHF通过结合人类反馈开发的单独奖励模型进行AI模型训练。主要模型旨在最大化其从奖励模型获得的奖励,从而改进其输出。

应用:OpenAI已经利用RLHF来训练像InstructGPT和ChatGPT这样的模型,展示了它在使AI系统与人类价值观和意图保持一致方面的有效性。

挑战:尽管具有益处,但RLHF面临着需要微调、昂贵的人类参与、人类反馈中可能存在偏见以及评估者之间存在分歧等挑战。

RLHF的实施

三个阶段:RLHF通常涉及三个阶段 - 选择一个预训练模型作为主模型,基于人类输入创建奖励模型来评估模型生成的输出,并将主模型的输出反馈给奖励模型。

奖励模型:通过对排名模型输出进行收集人类偏好,然后用于训练奖励模型。这些奖励模型向主模型提供反馈,以便在后续任务中提高性能。

直接偏好优化(DPO):像DPO这样不断发展的技术通过利用专家的偏好来优化AI 模式,从而消除了对奖励模型和人工注释的需求。

共享自治

共享自治是一种协作方法,在此方法中,人类和AI系统根据各自的优点分担(共担)决策责任。在共享自治设置中,人类与AI算法实时互动,把人类直觉、创造力和道德推理与AI技术计算能力和效率进行结合。通过促进人类与AI系统之间动态合作关系,共享自治使双方具有互补能力,并启用联合决策过程。这种协作方式确保了保持人类监督同时利用 AI 提高问题解决和决策制定的效益。

可解释的人工智能

可解释的人工智能专注于开发为其决策、行动提供透明结识的人工智能系统,,使人类能够理解AI输出背后的推理。通过可解释的机器学习模型、可视化和自然语言界面等技术增强人工智能算法的可解释性,可解释的人工智能促进了信任、问责制,并与人类价值观保持一致。透明的AI系统赋予了人类权力去诠释、验证并干预AI技术决策过程,培育出一个协作环境,在这个环境中,人类判断引导着AI系统行为走向符合伦理标准的结果。

1.2 系统可靠性

确保人工智能系统的可靠性对于防止意外伤害或负面后果至关重要。随着人工智能系统在医疗保健、交通运输和金融等高风险领域的部署日益增多,它们的可靠性和鲁棒性变得至关重要。

鲁棒性与弹性

人工智能系统应该对各种类型的扰动具有鲁棒性和弹性,包括敌对攻击、分布转移以及意外环境条件。像敌对训练、领域适应和强化学习这样的技术可以增强人工智能系统的鲁棒性,使其能够在不同且具有挑战性的场景中可靠运行。

安全关键系统

在诸如自动驾驶车辆或医疗诊断系统等安全关键应用中,人工智能系统故障的后果可能会非常严重的。形式验证、运行时监控和容错设计等技术可以帮助确保这些高风险领域中人工智能系统的安全、可靠运行。

持续学习和适应

人工智能系统通常在动态和不断发展的环境中运行,需要具备持续学习和适应的能力。在线学习、迁移学习和元学习等技术可以使人工智能系统更新知识并适应新情况,同时保持可靠性和安全约束。

1.3 透明度和可解释性

透明度和可解释性对于建立人工智能系统的信任并实现有意义的人类监督至关重要。不透明或“黑匣子”人工智能系统可能会使理解其决策过程变得困难,潜在地导致意外后果或偏见。

可解释人工智能

可解释人工智能(XAI)技术旨在使人工智能系统更易于理解,并提供对其决策过程的洞察。诸如特征归因、显著性图谱和基于语言的解释等方法可以帮助人类了解人工智能系统输出和决策背后的推理。

尽管在XAI技术方面取得了进展,许多人工智能系统仍然作为“黑匣子”运行,这使得完全理解它们的决策过程变得困难。持续研究和采用可解释性方法对于实现有意义的人类监督以及对人工智能系统的信任至关重要。

算法审计

算法审计涉及系统地评估人工智能系统可能存在的偏见、错误或意外后果。这可以通过压力测试、反事实评估和因果分析等技术来实现,从而在部署之前识别和缓解问题。

人类与人工智能信任

透明度和可解释性对于促进人类与人工智能系统之间的信任至关重要。通过提供易理解的解释并实现有意义的监督,人类可以对人工智能系统所做出的决策和建议产生信心,促进其负责任地采用和部署。

1.4 公平性和非歧视

如果人工智能系统设计和部署不当,可能会延续或放大社会偏见和歧视。确保人工智能系统的公平性和非歧视对于促进公平并防止对边缘化或少数群体产生有害影响至关重要。

偏见减轻

诸如去偏数据、对抗式去偏以及因果建模等技术可以帮助减轻训练数据或人工智能模型中存在的偏见。此外,像公平感知机器学习和反事实评估这样的框架可用于评估和减轻人工智能系统输出中潜在的偏见。

尽管已经开发了一些减轻偏见的技术,但有效地在各种人工智能应用程序中一致地实施仍然是一个挑战。需要更加强大的工具和流程来检测并减轻训练数据、算法以及输出中的偏见。

包容性设计

包容性设计涉及积极让不同的利益相关者(包括不具有代表性的人群、社区)参与到人工智能系统的开发、部署中。这有助于识别并解决可能会不成比例地影响某些群体的潜在偏见或危害。

道德AI治理

建立稳固的道德AI治理框架,包括政策、指南以及监督机制,可以帮助确保人工智能系统以公平且无歧视方式进行开发与部署。这可能涉及多方合作、外部审计以及持续监控与评估流程。

1.5 隐私保护

人工智能系统通常依赖大量个人数据进行训练和推理,引发隐私担忧以及滥用或未经授权访问敏感信息的潜在风险。保护个人隐私是AI Safety的关键方面。

数据隐私

差分隐私、安全多方计算和联邦学习等技术有助于个人隐私的保护,同时可以使人工智能系统在不暴露敏感信息的情况下进行数据学习

保护隐私的AI

保护隐私的AI涉及开发尊重并保护个人隐私的AI模型和算法。这可以通过同态加密、安全区域和保护隐私机器学习等技术实现。

隐私法规与合规性

遵守相关的隐私法规和合规框架,如《通用数据保护条例》(GDPR)或《加州消费者隱秘權利法案》(CCPA),对于开发和部署AI系统的组织至关重要。这包括实施适当的数据治理实践、进行隐私影响评估,并确保透明度与问责制。

AI Safety和AI Security之间的共同点

AI Safety和AI Security是密切相关但又不同的概念,它们涉及确保人工智能系统负责任和值得信赖的发展与部署的不同方面。虽然两者之间存在一些共同点,但重要的是理解它们各自独特的关注点以及它们如何相互补充。

AI Safety和AI Security之间的共同点包括:

风险缓解:AI safety和AI security都旨在减轻与AI系统相关的风险。AI safety侧重于防止对人类造成意外伤害或负面后果,而AI security旨在保护AI系统免受恶意攻击、数据泄露和未授权访问。

道德考虑:这两个领域都涉及与开发和部署AI系统相关的道德考虑。AI safety强调将AI系统与人类价值观、公平性和非歧视性相一致,而AI security还考虑了数据隐私、机密性以及潜在滥用AI系统的道德影响。

可信可靠:确保人工智能系统的可信和可靠是AI safety和AI security的共同目标。AI safety关注诸如鲁棒性、弹性和持续学习等方面,而AI security则解决完整性、可用性以及防范对抗攻击等问题。

透明度与问责制:AI safety旨在使人工智能系统具有可解释、可问责,以建立信任并实现有意义的人类监督,确保AI系统的决策过程和输出是透明的,并且可以被理解,并建立清晰的问责措施来让开发者和运营商对于任何意外后果或有害结果负责。另一方面,AI security依赖于透明度来维护安全控制和漏洞管理,要求将安全部署措施以及已确定的漏洞或潜在威胁公之于众,并积极沟通以实现有效监测、事件响应以及补救努力来减轻风险并防止恶意行为者或系统意外错误。通过优先考虑透明度与问责制,无论是AI safety还是 AI security都可以促进信任,实现有效监督,并确保AI 系统得到负责任地开发与运营。

多学科方法:解决AI safety和AI security挑战需要一种多学科方法,结合技术专长、伦理框架、治理结构和利益相关者参与。这两个领域都涉及研究人员、开发者、政策制定者和各方利益相关者之间的合作。

最终,AI safety和AI security相辅相成,有助于负责任且值得信赖地开发和部署人工智能系统。通过同时解决这两个领域,组织机构和利益相关者可以创建不仅功能强大且有能力的AI系统,而且符合伦理原则、安全可靠,并对潜在风险和威胁具有抵御力。

AI Safety与AI Security的区别

尽管AI safety与AI security相关且互补,但它们有着不同的关注领域和优先事项。理解这两者之间的关键区别对于开发负责任和值得信赖的人工智能系统至关重要。

3.1 范围和目标

AI safety主要关注的是防止由 AI 系统的行为或输出导致的意外伤害或负面后果。其目标是确保 AI 系统与人类价值观、道德原则和社会规范保持一致,并且以可靠、稳健和值得信赖的方式运行。

AI security侧重于保护 AI 系统免受恶意攻击、未授权访问、数据泄露和其他网络安全威胁。其主要目标是维护 AI 系统、数据和相关基础设施的机密性、完整性和可用性。

3.2 风险缓解

AI safety解决了人工智能系统固有的复杂性、自主性和决策能力相关的风险。它旨在减轻意外偏见、透明度不足以及可能对个人、社区或整个社会产生负面影响等风险。

AI security旨在减轻与网络威胁相关的风险,包括数据泄露、对抗性攻击、模型盗窃以及利用AI系统或其基础设施中存在的漏洞。

3.3 伦理考虑

AI safety非常重视伦理考虑,如价值观一致性、公平性、问责制和尊重人权与隐私。它旨在确保AI系统以符合伦理原则并以促进社会福祉的方式开发和部署。

虽然AI security也涉及伦理考虑,如数据隐私和对AI系统的负责使用,但其主要关注点是针对恶意行为者和未授权访问所采取的技术措施。

3.4 技术和方法论

AI safety采用价值学习、逆向强化学习、宪法人工智能、可解释人工智能、算法审计和包容性设计实践等技术,以解决价值一致性、公平性、透明度和问责制等问题。

AI security利用安全隔离区域、同态加密、差分隐私、对抗训练和安全多方计算等技术来保护人工智能系统免受网络威胁,并确保机密性、完整性和可用性。

3.5 利益相关者参与

AI safety需要广泛与各种利益相关者合作和协作,包括伦理学家、政策制定者、领域专家以及受影响社区的代表,以确保AI系统在负责任和包容的方式下开发和部署。而AI security可能涉及与利益相关者如网络安全专家、监管机构和行业合作伙伴的协作,担其主要关注的仍是技术措施以及安全标准和法规的符合性。

值得注意的是,AI safety和AI security并不是相互排斥的;相反,它们是相辅相成的,必须同时解决才能创建负责任、可信赖且安全的AI系统。有效的人工智能治理和风险管理策略应覆盖AI safety和AI security的整个生命周期(设计、开发、部署、监控等)。

结论和讨论

AI safety领域是一个多方面的、快速发展的领域,旨在解决与日益先进的人工智能系统开发和部署相关的潜在风险和挑战。随着人工智能技术继续渗透到我们生活的各个方面,确保它们的 safety、security以及与人类价值观的一致性变得至关重要。

在这次探索中,我们深入研究了区分AI safety和AI security的差别,同时也承认它们互补的特性。AI safety涵盖了广泛的考虑因素,从价值观一致和道德发展到系统可靠性、透明度、公平性和隐私保护。它旨在减轻由于人工智能系统行为或输出而导致的意外伤害或负面后果,确保其以符合人类价值观和社会福祉为一致标准运行。

相比之下,AI security主要关注保护人工智能系统免受恶意攻击、未授权访问、数据泄露和其他网络安全威胁。其目标是维护人工智能系统、数据和相关基础设施的机密性、完整性和可用性,防范可能被恶意行为者利用或滥用的风险。

虽然AI safety和AI security有着不同的优先事项和关注领域,但它们是密不可分的,并且必须同时解决,以创建负责任、值得信赖和安全的人工智能系统。有效的人工智能治理和风险管理策略应该贯穿整个人工智能生命周期,从设计和开发到部署和监控。

随着人工智能技术的快速发展,确保其安全和负责任的发展所面临的挑战变得越来越复杂和紧迫。解决这些挑战需要多学科方法,结合技术专业知识、伦理框架、治理结构和利益相关者参与。

研究人员、开发者、政策制定者、伦理学家和各方利益相关者之间的协作努力对于驾驭AI safety和security这一错综复杂的领域至关重要。类似前沿模型论坛和开源合作等倡议有潜力促进透明度、知识共享以及最佳实践的发展,这些可以指导负责任且符合道德标准的人工智能系统的部署。

此外,围绕人工智能潜在风险和益处的持续辩论,包括对谨慎行事和需要监管框架的呼吁,突显了积极主动措施和国际合作的重要性。随着人工智能技术不断发展,其对社会的影响变得日益深远,需要采取一种平衡的方法来促进创新、减轻潜在风险,并确保与人类价值观相一致。

最终,追求AI safety与security代表着一场持续的旅程,这需要不断保持警惕、适应并致力于维护伦理原则。通过采用一种整体方法,将技术专业知识、伦理考量和利益相关者参与相结合,我们可以驾驭这项变革性技术的复杂性,并利用其潜力造福人类社会,同时防范意外后果和潜在滥用。

参考资料

Christiano, Paul. 2023. "AI ‘safety’ vs ‘control’ vs ‘alignment’." AI Alignment: https://ai-alignment.com/ai-safety-vs-control-vs-alignment-2a4b42a863cc.

Aouf, Abdellah. 2023. “How AI Bias Could Impact Hiring and Recruitment.” LinkedIn. https://industrywired.com/linkedin-coughed-out-ai-bias-is-ai-in-recruitment-reliable/.

Bansemer, Mary. n.d. "Securing AI Makes for Safer AI." Center for Security and Emerging Technology (CSET), Georgetown University. https://cset.georgetown.edu/.

Gonfalonieri, Alexandre. 2018. “Inverse Reinforcement Learning. Introduction and Main Issuesby Alexandre Gonfalonieri.” Towards Data Science. https://proceedings.mlr.press/v202/metelli23a/metelli23a.pdf.

Huang, Ken, Yang Wang, Ben Goertzel, Yale Li, Sean Wright, and Jyoti Ponnapalli, eds. 2024. Generative AI Security: Theories and Practices, Springer Nature Switzerland.

Imbrie, James. 2023, "AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement." Center for Security and Emerging Technology (CSET), Georgetown University. https://cset.georgetown.edu/publications/.

Department of Homeland Security (DHS). 2023,"Promoting AI Safety and Security." https://www.dhs.gov/ai.

Marr, Bernard. 2023. "The 15 Biggest Risks of Artificial Intelligence." Forbes. https://www.forbes.com/sites/bernardmarr/.

Stanford University (AI100). 2021. "Gathering Strength, Gathering Storms: One Hundred Year Study on Artificial Intelligence (AI100) 2021-1.0." https://ai100.stanford.edu/.

文章来源:CSA官网 原创作者:黄连金

https://cloudsecurityalliance.org/blog/2024/03/19/ai-safety-vs-ai-security-navigating-the-commonality-and-differences

本文翻译来自AI安全工作组成员:

张坤

CSA大中华区专家

杨喜龙

CSA大中华区专家

黄家栋

CSA研究协调员

声明:本文来自国际云安全联盟CSA,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。