作者简介
鞠鑫
苏州市卫生计生统计信息中心副主任,主要从事卫生信息化、数据安全、网络信息安全、安全运维等方面的研究工作。
曹京
中国信息通信研究院安全研究所工程师,主要研究领域为数据安全、网络安全、个人信息保护等。
陈佛忠
绿盟科技集团股份有限公司创新研究院资深安全研究员,主要从事数据安全、5G安全等方面的研究工作。
刘文懋
绿盟科技集团股份有限公司创新研究院总经理,长期从事云安全、数据安全、5G安全等方面的研究工作。
胡忠华
绿盟科技集团股份有限公司党委书记,总裁,长期从事网络安全、数据安全等方面的研究工作。
论文引用格式:
鞠鑫, 曹京, 陈佛忠, 等 . 隐私计算在卫生健康行业的应用与安全研究[J]. 信息通信技术与政策, 2023,49(2):43-48.
隐私计算在卫生健康行业的应用与安全研究
鞠鑫1 曹京2 陈佛忠3 刘文懋3 胡忠华3
(1. 苏州市卫生计生统计信息中心,苏州 215002;2. 中国信息通信研究院安全研究所,北京 100191;3. 绿盟科技集团股份有限公司,北京 100089)
摘要:医疗健康数据难以安全共享、开放与利用是阻碍当前卫生健康行业信息化发展的最重要因素之一。研究探讨了卫生健康行业在数据共享与利用的实际应用场景下面临的困境,提出了隐私计算在各应用场景下的应用方案,并根据实际需求给出了对应场景下隐私计算模型安全的建议。
关键词:隐私计算;数据安全;联邦学习;模型安全;可信执行环境
0 引言
近年来,我国卫生健康行业信息化有了显著的发展和进步,医疗数据开放共享已经成为了当下时代发展的趋势。中共中央 国务院发布的《“健康中国2030”规划纲要》,要求推进基于区域人口健康信息平台的医疗健康大数据开放共享、深度挖掘和广泛应用[1]。国家卫生健康委员会(简称“卫健委”)《“十四五”全民健康信息化规划》也要求加强健康医疗大数据创新应用与行业治理,采取“原始数据不出域、数据可用不可见”等方式,有序推动健康医疗大数据共享应用[2]。但从实际情况来看,医疗健康数据共享与利用的难题仍是目前阻碍卫生健康行业信息化发展最重要的因素之一,其核心在于数据共享势必会带来更多数据安全问题。面对以上问题,结合卫生健康行业实际场景进行了分析与探索,提出了隐私计算在实际应用场景下的应用方案,同时对隐私计算模型安全的建设进行了讨论并给出了相应的意见。
1 卫生健康行业信息化发展现状及面临的挑战
我国已经步入了信息化时代,卫生健康行业也正在快速推进信息化建设的进程,同时我国在政策上也在不断完善卫生健康行业信息化发展的要求。2018年,国务院办公厅发布了《关于促进“互联网+医疗健康”发展的意见》,在该意见中指出医疗联合体要积极运用互联网技术,加快实现医疗资源上下贯通、信息互通共享、业务高效协同,便捷开展预约诊疗、双向转诊、远程医疗等服务[3]。上述政策出台之后全国各地迅速落实,2020年12月国家卫健委发布了《关于深入推进“互联网+医疗健康”“五个一”服务行动的通知》,该通知总结了两年来实践中的典型做法,强调要推进新一代信息技术在医疗卫生健康行业深度应用创新发展[4]。在国家政策的大力支持下,我国卫生健康行业信息化市场不断壮大。据艾瑞咨询报告[5],我国2021—2025年区域医疗信息化市场空间复合增长率为27.9%,2025年我国医疗信息化市场空间将达到1 245 亿元(见图1)。
图1 2021—2025年中国区域医疗信息化市场空间
在卫生健康行业信息化高速发展的过程中,医疗健康数据也不断加速了开放共享,然而医疗健康数据的开放共享势必也带来了更多的数据安全问题。《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》 明确指出在推进政府数据开放共享、提升社会数据资源价值的同时应加强对政务数据、企业商业秘密和个人数据的保护[6]。美国HIPPA Journal的报告显示[7],2021年全美上报的医疗记录数据泄露事件数量是2015年的2.5 倍以上、2010年的3.5 倍以上,2009—2021年间,全美共有超过3.14 亿份医疗记录遭泄露,这一数字占美国人口的比例超过94.63%。
2 隐私计算助力困境破局
医疗健康数据更好的高效流转及开放共享已经成为了卫生健康行业信息化发展的趋势,但这种趋势也会增大数据的安全风险。那么,如何在保证数据安全、合法的前提下实现数据的高效流转? 在此背景下,隐私计算作为在数据融合应用过程中保证数据安全合规的关键技术路径,成为当前各界关注和研究的热点技术之一。
隐私计算,又称隐私增强计算,指在提供隐私保护的前提下,实现数据价值的技术体系。隐私计算通过基于安全多方计算、联邦学习、可信执行环境等技术构建特定的技术方案,在保护数据隐私的基础上实现多方数据共享,实现数据处于加密状态或非透明状态下的计算,以达到各参与方隐私保护的目的[8-9]。
从理论上来看,隐私计算可以有效地缓解医疗健康数据的安全问题,从而更好、更快地推进卫生健康行业信息化的发展。但从实际情况来看,隐私计算如何贴近卫生健康行业不同的真实场景应用,以及隐私计算自身模型安全性是否可靠等问题仍需要进一步研究。
3 隐私计算在卫生健康行业的应用与安全探索
为了更好、更快地利用隐私计算技术实现数据的开放、共享与利用落地,以及更好、更快地推进卫生健康行业信息化的发展,本文将对隐私计算在卫生健康行业的应用与安全进行全面的探索与实践[10-11],具体如下。
3.1 隐私计算助力医学科研
医学科研主要是指借助实验室手段对疾病发生机理、诊断和治疗等方面的科学研究,其对人类社会的发展与进步起到了举足轻重的作用,随着信息化的推进及人工智能技术的逐步成熟,医学科研对医疗健康数据的需求量也在逐步地增加。然而,由于数据安全、患者个人隐私信息等问题,不同医学科研单位之间难以共享各自的医疗健康数据,医院临床的患者信息也很难提供给科研部门。医疗健康数据不足是现代医学科研面临的重要问题之一,对于需要大量数据或数据难以获取的医学研究来说该问题尤为突出。
近年来,我国高度重视罕见病的诊疗工作,国家卫健委于2019年发布了《罕见病诊疗指南》[12],并于2020年1月发文设立了全国罕见病诊疗协作网办公室[13]。由于罕见病患者较少,单个医学科研部门很难获取到足够可供研究的医疗健康数据,多个医学科研部门罕见病数据共享开放又存在诸多合规及安全上的问题,数据不足则成为了罕见病医学科研的主要障碍之一。除了数据难以获取,需要大量数据的医学科研(如基因组关联分析)也同样存在数据不足的问题。
解决医疗健康数据孤岛,是促进医学研究的关键,而隐私计算技术的出现在一定程度上解决了该类难题。通过隐私计算技术,可以在保证医疗健康数据安全、合法的前提下,构建一个数据流通使用的医学科研应用平台(见图2)。通过利用隐私计算联邦学习技术,可以根据实际科研机构的需求在该平台进行科研建模,医学科研机构和卫健委可以作为数据提供方将自身的科研数据提供给平台。凭借着联邦学习的特性,医学科研机构可以在该平台上不断丰富自己的模型,同时医学科研机构和卫健委提供的数据并不需要出其本地,这个过程也在真正意义上实现了数据的“可用不可见”。此外,卫健委也可以根据自身实际需求,对该平台上的建模任务及数据共享流通的过程进行监督与管理。
图2 医学科研应用平台
医学科研应用平台上模型的安全问题也应得到重视。在进行联邦学习建模任务时会涉及到多个参与方,每个参与方都会提供自身的数据助力模型的优化,然而在该过程中可能会出现“恶意”的参与方提供不当的数据以至于模型受到污染。“恶意”的参与方既可能是故意提供不当的数据,也可能是无意之举,此类污染联邦学习模型的行为称之为“模型投毒”。医学科研应用平台往往会涉及到多个医疗机构共同建模完善模型,因此该平台应具备防投毒功能,以便隐私计算技术更好地助力医学研究。
3.2 隐私计算助力新药研发
新药研发领域有一个广为人知的“双十定律”,即研发一款新药平均需要花费10 亿美元并历时10年之久。随着人工智能的发展,数据对于新药研发的重要性日益突出,但由于医疗健康数据敏感性等问题,药企很难直接获取到医院的医疗健康数据,数据不足的问题严重影响到了新药研发的进程及新药质量的水平[14]。
通过隐私计算技术,可以在药企侧构建一个药物研发平台(见图3),药企可以在该平台上开展与其相关的联邦学习建模任务(如通过建模筛选药物开发最有效的化合物),医院和卫健委则可以通过隐私计算技术给该平台提供数据支撑。在该应用场景下,医院和卫健委可以在保证医疗健康数据不出本地的情况下协助药企优化模型,从而加速我国新药研发的进程。同时,在该应用场景下,医院和卫健委也实现了数据的增值,从而一定程度上缓解了近些年来疫情给医疗行业带来的财政压力。
图3 药物研发平台
除了上述的应用场景外,药企之间也可以通过隐私计算技术共同合作来加速新药的研发。在2022年,安进、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克等全球10 家顶尖药企宣布携手合作,共同利用隐私计算技术进行药物研究,一起实现互惠共赢。此类应用场景不仅可以消除同行业之间的壁垒屏障、实现互惠共赢,而且会大大促进人类社会医疗水平的进步。值得注意的是,由于是竞争对手共同合作,这类场景下“模型投毒”出现的概率会大大增加,因此该应用平台更应支持防投毒检测等模型上的安全性功能。
3.3 隐私计算助力智慧医疗
智慧医疗指的是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构与医疗设备之间的互动。随着卫生健康行业信息化建设的深入和人工智能技术的逐步完善,智慧医疗在医学影像信息和临床决策支持等方面都有着显著的应用[5]。
3.3.1 医学影像信息化趋势及面临的问题
医学影像是医生用于诊断和评估疾病的常用手段,其类型通常包括MRI、CT、超声、PET、组织切片病理图等。随着现代医学发展,传统医学影像管理方法已无法适应现代医学影像管理的要求,无胶片化影像科和数字化医院已经成为现代化医疗发展的必然趋势。由于医生的人工成本高、医生的知识水平参差不齐且临床诊断一个患者需要评估数百张影像耗时耗力等原因,用AI技术辅助医生进行影像诊断已经成为趋势。但AI影像诊断同样面临着数据样本有限、数据质量较低等问题(尤其是罕见病例),因此AI影像诊断仍无法对多种类型多种器官病灶进行精准的特征描述,也无法对疾病进行精准的预后评估。
3.3.2 临床决策支持系统信息化趋势及面临的问题
在我国医疗信息化高速发展的当下,临床决策支持系统(Clinical Decision Support System,CDSS)已进入规模化的应用阶段,CDSS已较广地覆盖了国内的三级医院[5]。CDSS是基于人工智能、深度学习等技术,结合医学知识、临床案例和患者病情,辅助医生分析病历,制定准确、有效的治疗方案的工具,具备减少医疗差错、提高医疗效率、控制医疗费用支出等优势。但目前CDSS普遍存在不同医院数据不共享、信息跨级调用难等问题,因此并不能构建完整、专业的医疗知识库,从而无法高效地帮助医生进行辅助诊断。
3.3.3 隐私计算生态体系助力智慧医疗发展
通过利用隐私计算技术,可以从技术层面上解决数据不共享、信息跨级调用难等问题,在医疗健康数据不出本地的前提下,多个医疗机构可共同完成模型的建立,实现“数据可用不可见”的效果,有效发挥分布在不同医疗机构的数据价值。智慧医疗体系会涉及到医院、系统开发商、卫健委等多个实体机构,笔者认为应该构建一个协作共赢的智慧医疗隐私计算生态体系(见图4),通过利用隐私计算技术,提高训练样本的数据量和质量,以此提升模型精度和训练效果,从而帮助医生更好地进行临床诊断。在该生态体系中,隐私计算能力厂商将把隐私计算技术赋能于医院业务系统(如临床决策支持系统、医学影像评估系统等),业务系统开发厂商将在相应的系统上集成隐私计算能力模块,各医疗机构将根据自己的实际情况决定是否参与到该生态体系之中,同时卫健委可以对整个过程进行监督与审计。该生态体系将会大大促进智慧医疗的进步,帮助患者得到更好的医疗服务,同时会对个人隐私信息、医疗健康数据信息进行有效的保护。
图4 智慧医疗隐私计算生态体系
在隐私计算联邦学习安全性方面,尽管参与的各方不存在明显的竞争关系,但医疗业务复杂且繁忙,存在实际操作人员误操作等人为不确定因素造成模型被污染的可能性。为了使得该生态体系更好、更安全地运行,隐私计算能力厂商应支持防投毒的联邦学习算法,提高模型的安全水平。
3.4 隐私计算助力疫情防控
科学精准疫情防控需要大量的个人数据及隐私信息,涉及到的数据来源方包括运营商、互联网、医院等实体机构。在做好科学精准疫情防控的同时,数据安全也应得到重视。疫情防控办由于防疫需求可能会收集政府相关数据(如健康宝信息)、运营商相关数据(如行动轨迹信息)、医疗相关数据(如个人医疗健康数据)和互联网相关数据,由于数据的敏感性疫情防控办应加强数据库的安全管理,使用隐私计算可信执行环境技术便可以很好地满足这方面的安全需求。
可信执行环境指在设备上一个独立于不可信操作系统而存在的可信的、隔离的、独立的执行环境,为不可信环境中的隐私数据和敏感计算提供了一个安全而机密的空间,其安全性通常通过硬件相关的机制来保障。疫情防控部门可以将数据存放在可信执行环境中,即使内部工作人员也无法直接看到或修改存放的数据信息。当数据需要计算时,可以在可信执行环境容器中进行机密计算,并输出可信结果。
3.5 隐私计算助力医疗健康数据安全防护
对于医院、卫健委来说,通常会收集到大量的医疗健康数据并需要长期的管理及维护,保证医疗健康数据安全往往是其头等大事。近年来,国内外医疗健康数据泄露事件频频发生,医疗健康数据安全问题需要得到更多的重视。
早在2014年,国务院便提出要实行医疗、医保、医药三联动,强化公共卫生服务,切实满足人民群众的医疗卫生需求[15]。近年来,各地也都在积极推进医疗、医保、医药“三医”领域的改革,以海南和四川为例,在2021年取得了阶段性的建设成果,但“三医”联动改革大大提高我国卫生健康行业水准的同时也加大了医疗健康数据安全防护的压力。由于“三医”联动需要收集本地区医疗、医保和医药三个领域的医疗健康数据,其数据库安全防护水平需要得到额外的提高。
隐私计算可信执行环境凭借着其独特的安全特性,可以保证在安全环境中收集到的所有数据都不被篡改及外泄,从而大大提高医疗机构或政府部门对医疗健康数据的安全防护能力。类似“三医”联动场景下量级庞大且重要的数据库,在利用此数据做前沿性业务的同时,也应对此数据做好全方位的安全防护,既要能防止外部的恶意攻击,也要能避免内部操作人员无意或恶意地窥窃、篡改或泄露数据。
4 结束语
我国卫生健康信息化市场规模正呈逐年递增的趋势,卫生健康行业逐渐进入信息化时代的同时,也带来了许多新的数据安全问题。隐私计算作为实现数据可用不可见的“技术解”,近年来受到医疗领域的持续关注,根本原因是医疗健康数据已经进入了必须安全又必须共享的新时代。本文重点阐述了隐私计算在卫生健康行业的应用场景,并对多个应用场景下隐私计算模型安全提出了针对性的建议。随着隐私计算模型安全的不断增强、隐私计算在卫生健康行业不同场景下落地方案的不断完善,未来隐私计算在卫生健康行业的重要性也会越来越高、实际应用也会变得更加普遍。
Application and security research of privacy computing in health industry
JU Xin1, CAO Jing2, CHEN Fozhong3, LIU Wenmao3, HU Zhonghua3
(1. Health and Family Planning Statistics Information Center of Suzhou, Suzhou 215002, China; 2. Security Research Institute, China Academy of Information and Communications Technology, Beijing 100191, China; 3. NSFOCUS Technologies,Inc., Beijing 100089, China)
Abstract: Difficulty in safe sharing, openness and utilization of medical and health data is one of the most important factors hindering the development of informatization in the current health and health industry. This paper researches and discusses the difficulties faced by the health industry in the actual application scenarios of data sharing and utilization, proposes the application schemes of privacy computing in various application scenarios, and gives suggestions on the security of privacy computing models in corresponding scenarios according to actual needs.
Keywords: privacy computing; data security; federated learning; model security; trusted execution environment
本文刊于《信息通信技术与政策》2023年 第2期
声明:本文来自信息通信技术与政策,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。