演讲嘉宾 | 李 屹

回顾整理 | 廖 涛

排版校对 | 李萍萍

嘉宾介绍

OS安全分论坛

李屹,华为OS内核实验室安全技术专家与助理科学家。主要研究领域包括操作系统安全、软件形式化证明、超低时延软件建模与开发等。目前主要参与的工作包括:自研自动形式化证明平台(支撑鸿蒙内核获得CC EAL 6+高等级安全认证)、基于操作系统内核层面构建的数据安全底座等。

正文内容

大模型已成为当下AI产业最大热点,业界也正在积极探索大模型的应用场景。然而,大模型背后依赖的是海量的训练数据与交互数据,人工智能的黑盒机制导致大模型在实践中不可避免地存在敏感数据的安全挑战。如何从操作系统视角应对大模型应用中的数据安全挑战?华为OS内核安全专家、副首席科学家李屹在第二届OpenHarmony技术大会上进行了精彩分享。

图像模型、大语言模型、多模态模型等大模型在研发的各阶段为我们带来巨大的生产力提升,例如:(1)协助编码:代码补全、知识检索、测试用例生成;(2) 文档写作:语言翻译、文档润色、文稿写作;(3)数据处理:自动分析、数据制图;(4)智能助手:Rewind、ChatGPT Mobile App。大模型的核心能力是数据的理解与处理,因此它所获取的用户数据越多,能为使用者提供的帮助也就越多,其带来的便利,本质上也是“对于数据的深度理解和处理”。然而,当用户深度使用大模型或者越来越依赖大模型能力时,随着大模型自身能力的增强,用户数据滥用的危害就越大。

因此,保障数据安全是我们放心使用大模型应用的必要前提。从被保护对象的角度出发,大模型数据安全挑战主要有以下两个方面:

  • 保护用户数据不被滥用。要求用户数据的获取和使用应当符合用户的授权;模型自身无法滥用用户数据;恶意攻击者无法通过攻击大模型应用来获取其中的用户数据。

  • 保护模型资产免受攻击。要求模型资产的获取和使用应当符合模型开发者的授权;恶意使用者无法通过攻击大模型应用来获取模型数据。

为什么我们希望基于操作系统来实施数据安全保护手段?

通常而言,每个应用或者应用生态都会自己构建一定的数据安全保护能力。然而,由于应用层构建的安全能力往往各自为战,导致系统整体存在“千里之堤,溃于蚁穴”的风险。在数据共享的背景下,数据安全是一个完整的体系。其中任意一环被攻破即导致整体数据安全保护失效。

举例来说,如果在应用层构建DLP(数据防泄漏)解决方案。由于安全能力构建于各个应用之中,而应用之间会产生数据共享。因此一旦其中一个应用出现问题或者被攻破,那么就会造成整体的数据泄露风险。

在操作系统层如何构建数据安全保护能力?可以基于3个维度:隔离、跟踪和协同。

一、隔离:构建可信的隔离空间来运行大模型应用。当我们要保护数据的时候,最简单,也最能令用户信服的数据保护方式,就是让数据始终留在端侧。但是,由于大模型本身的黑盒特性,用户并不信任应用,那么谁来保证数据不出端呢?例如,当用户想询问大模型今天的天气怎么样,需要穿什么衣服出门时,大模型需要知道用户的位置信息,且还需要从线上的其他地方获取该位置的天气数据。通过这个例子,很容易看出在部分场景下大模型既需要访问用户的个人隐私数据,客观上也需要联网或者是访问外部文件/数据以带给用户更好的体验。

在普通的操作系统中,由于没有机密域隔离,攻击者可以利用应用漏洞发起攻击即可获取用户数据和模型资产;通过构建可信的隔离空间,区分机密域和非机密域,可以实现即便攻破应用本身,也无法获取模型和用户数据的目的。

二、跟踪:将无形的数据化为有形,跟踪数据使用,实施精准管控。尽管通过隔离手段能够实现数据安全,但在许多场景下大模型都是需要访问联网信息的。例如,即使数据质量和参数规模强如ChatGPT,也不可能在模型参数中记录整个互联网的知识体系。需要通过搜索插件等在线获取;Open Interpreter等应用更是将支持联网作为重要特性;新发布的大模型纷纷原生支持代码的生成与运行,进一步增加了模型与外部交互的需求。

在大模型应用中,数据本身是无形的,就是一串字节流。如果将应用视作一个黑盒,那么对应用的隔离管控只有“是”与“否”的区别。如果数据类型由操作系统观测并管理,使大模型应用在使用数据时,操作系统能够感知该数据是不是敏感数据,从而实现精准定位和管控,保障数据安全。

三、协同:安全调用云端算力,让应用更加智能。通过隔离和跟踪,在端侧可以实现较为精准可靠的数据安全保护。然而,在现有的硬件设备下,端侧算力仍显不足,而端侧算力对大模型的智能程度有很大影响。相较于GPT-3的175B参数规模而言,在实际的手机应用场景,为了平衡功耗,性能等问题,当前的主流端侧大模型解决方案都选择了1B级别的“小”模型。因此,如何通过端云协同来释放云端算力成为当前的研究热点。

安全调用云端算力有2个思路:(1)构建端云协同的分布式机密计算环境,从技术上让数据留在同一个信任域中,实现“技术不出端”;(2)通过操作系统层构建的数据脱敏模块,来支撑多种不同形式的端云协同推理,实现敏感数据不出域的同时,释放云端算力。

综上所述,从操作系统视角,可以从隔离、跟踪以及协同3个维度应对大模型数据安全问题。后续,希望能够以操作系统为底座,以数据安全为第一原则,逐步构建可信的原生智能。

「嘉宾材料暂不分享」

声明:本文来自OpenHarmony TSC,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。