利用大数据追踪公共卫生事件中传染源的思路探讨

文│中国电子技术标准化研究院何延哲公安部第一研究所宋杰

在当前这场新型冠状病毒疫情防控战中，主战场将逐步从武汉转向出城人员，乃至其所至之处，所触之人。到底还有多少人处于潜伏期，潜伏期间接触了多少人，以什么方式接触，还是个令人揪心的未知数。截止目前，31个省（含自治区、直辖市）均启动一级响应，机场、火车站、酒店等开始了旅客信息登记，社区开始了挨家挨户的排查登记。然而，面对“疫情”，受个人心态、渠道有限等因素制约，信息不对称的情形导致的“盲区”还是存在，尤其是县乡村镇、偏远地区情况不容乐观。

此次疫情防控过程中，各地各行业积极应用大数据分析，科技手段助力疫情防控让人耳目一新，但数据采集带来的个人信息保护问题也引起了关注。对此，近日工信部有关领导在媒体通气会上表示，大数据在疫情溯源和监测、分析疫情情况、支撑疫情态势研判和疫情防控部署等方面起到了积极的作用，但要依法依规采集分析用于疫情防控的相关数据，严格落实数据安全和个人信息保护的相关措施。那么，如何进一步高效扫除疫情“盲区”，占据疫情防控的“主动权”，又切实保障好个人权益，“个人信息”和相关大数据能否扮演更加“有益”的角色，助力打赢这场疫情防控阻击战呢？

一、获取有效个人信息的思路

根据中国互联网络信息中心（CNNIC）发布的《第44次中国互联网络发展状况统计报告》显示，截至2019年6月，我国网民规模达8.54亿，互联网普及率达61.2%，其中使用手机上网的比例达99.1%。手机成为生活必备品，人们在疫情时期更是依赖于使用手机与外界沟通。那么，以手机及App相关的个人信息为出发点，行踪轨迹最有助于精准锁定“潜在传染源”，其中相关性高的有效信息包括：

1.交易/支付信息

根据《非银行支付机构网络支付业务管理办法》等要求，以及机构对账、生成账单的必要，所有的支付机构必然留存用户的支付信息，支付信息会同时保存在用户终端、支付终端（包括专用收款终端和收款的个人手机）。同时，完整的交易/支付信息中还包含准确的时间，以及支付风控机制、专用收款终端定点部署、摊主实名登记等原因，交易/支付信息可与位置信息产生关联。

2.火车票/机票/汽车票等行程信息

根据《公共航空运输企业航空安全保卫规则》、《铁路旅客车票实名制管理办法》、《道路旅客运输及客运站管理规定》、《中华人民共和国反恐怖主义法》等要求，以及实名购买、实名查验环节的“票、人、证”一致性核对必要，需要记录有关旅客身份信息及出行信息，交通管理、公安等部门均会保留实名乘机、乘车等记录。同时，随着网络购票的普及，购票所需的实名信息、购票记录、退改签信息以及联系方式都会被相关App、网站留存。

3.住宿信息

根据《旅馆业治安管理条例》要求，旅馆接待住宿应当查验住宿人员身份证件，逐人如实登记住宿人员的姓名、性别、民族、住址、有效身份证件种类和号码以及入住、退房房号及时间等信息，登记的信息也应当通过旅馆业治安管理信息系统实时传输报送公安机关。同时，随着网络预订的普及，预订住宿的记录以及联系方式都会被相关App、网站留存。

4.行车/导航记录信息

不管是乘坐网约车还是开车自驾开启导航成为常态，而开启导航服务所必要的信息是精准地理位置。以网约车为例，其计费模式依赖导航路线，其结算模式依赖于行车记录（时间、起止地点等），其纠纷处理依赖于乘客信息（联系方式、姓名等），行车记录中包含足够的可用信息。以私家车为例，导航记录可能包括了注册手机号码、设备识别码（硬件或软件自定义）、导航路线、时间等。以收费站为例，因缴费所需，收集了车牌信息、所经路线及时间，车牌信息可与车辆登记人信息进行关联。

5.收货地址信息

网购、外卖已经成为大众的日常习惯，提供准确的收货地址也成为上门配送的必要条件。通常，配送记录、配送地址、联系方式信息等通常会被相关App、网站留存。

6.其他信息

此外，一些用餐、购票等活动记录也可能体现个人的行踪轨迹。

二、数据关联分析的思路

个人信息经过搜集、汇总以及关联分析，可以相对准确绘制出一张疫情相关人员流动的“电子地图”，数据关联分析的要点如下：

1.关联分析的基本思路

（1）基于传染源地点、感染时间（段）、感染人员等信息进行直接分析

如果已知传染源地点、感染时间（段）、感染人员等信息，可以直接基于交易/支付信息、行程信息、住宿信息、行车/导航记录信息、收货地址信息，查找相关可能存在感染风险的人员，并进一步对其行踪轨迹进行关联分析，进行分析的方式包括：

1）基于手机号码进行关联分析

以上个人信息绝大多数均在手机App端和相关服务器产生（包括用户主动提供，如身份证、联系方式等，以及生成的各类活动记录），而且前提是需要注册账号。根据《移动互联网应用程序信息服务管理规定》，移动互联网应用程序提供者可以按照“后台实名、前台自愿”的原则，对注册用户进行基于移动电话号码等真实身份信息认证。目前，绝大多数App都基于有关规定采取了手机号码注册的方式，以满足账户注册、实名制规定、账户安全（动态密码、短信登录、密码找回等）等功能，可谓一举多得。因此，基于手机号码将不同行为信息相关联是可行性很高的一种措施。此外，手机号码有着独一无二的优势，利用手机号码可以直接联络到用户，向用户提供相关信息；在电信运营商的协助下，还可以利用信令核准使用手机号码人员所在精准位置。

2）基于设备识别码进行关联分析

对于未使用手机号码注册、登录的情形下App记录的各类个人信息，在App申请开启“电话/设备信息”权限和使用Cookie等情况下，可能收集了IMEI/IMSI/SN/MAC/IDFA等设备硬件设备码以及软件生成的识别码，这类信息也可以成为关联用户活动形成行踪轨迹的关联点。此外，借助设备识别码可以由国民级App（装机量上亿）的平台通过推送“通知”方式触达用户。

（2）基于行踪轨迹的二次关联分析和风险预测

由于病毒具备“人与人”传播的特性，且潜伏期可能长达14天，在这期间很难捕捉传播的路径，即使广泛散发通知，也不能保证人人看得到、人人有印象、人人愿反馈。因此，除了从已感染或疑似感染病毒的人群进行直接分析以外，借助大数据二次关联分析可以掌握与感染者/疑似感染者有过接触的人员动向。比如，基于购物、用餐等相关的交易/支付信息，同一行程和同一住宿信息等，可以了解特定时间段内与已感染/疑似感染病毒人员有过接触的人员，然后再分析该人员其他行踪轨迹，从而形成完整的“二次/多次传播”态势信息。

在风险预测方面，可以通过分析“接触时间、时长”，如是否与已处在潜伏期人员进行接触、是否在传染源长时间逗留，也可以通过分析“接触空间”，如是否为密闭空间（如飞机、火车、汽车等），是否为人群密集场所（如商场、景区、游乐场等），并根据具体信息设定不同的风险级别，对高风险人群进行锁定和二次/多次追踪。并结合发病规律和人员流动规律，形成“预警”大数据，以协助疫情防控有关部门作好应对措施。

2.正确处理数据关联分析与个人信息保护的关系

（1）数据关联分析的合法性基础

对于交易/支付信息、行程信息、住宿信息、行车/导航记录信息、物流/收货信息等数据关联分析，其中涉及的收集使用个人信息过程是否存在合法性基础是开展关联分析的前提。根据《传染病防治法》第十二条规定，在中华人民共和国领域内的一切单位和个人，必须接受疾病预防控制机构、医疗机构有关传染病的调查、检验、采集样本、隔离治疗等预防、控制措施，如实提供有关情况；同时根据《突发公共卫生事件应急条例》第四十四条规定：在突发事件中需要接受隔离治疗、医学观察措施的病人、疑似病人和传染病病人密切接触者在卫生行政主管部门或者有关机构采取医学措施时应当予以配合；拒绝配合的，由公安机关依法协助强制执行。可见，人民政府在突发事件应急预案中，可以将除了卫生行政机构、疾病预防控制机构和医疗机构之外的部门、机构、组织、个人纳入，并赋予其信息收集、分析的任务。

《传染病防治法》同时指出，疾病预防控制机构、医疗机构不得泄露涉及个人隐私的有关信息、资料。卫生行政部门以及其他有关部门、疾病预防控制机构和医疗机构因违法实施行政管理或者预防、控制措施，侵犯单位和个人合法权益的，有关单位和个人可以依法申请行政复议或者提起诉讼。可见，这些广泛的强制性权力并非没有边界和规范，以及这些信息在收集后的安全使用问题都要在合理范围内运用。

此外，部分法律法规界定了可能存在的违法违规收集使用个人信息行为。如《传染病防治法》规定，故意泄露传染病病人、密切接触者涉及个人隐私的有关信息、资料的，由县级以上人民政府卫生行政部门责令改正，通报批评，给予警告；造成传染病传播、流行或者其他严重后果的，对负有责任的主管人员和其他直接责任人员，依法给予降级、撤职、开除的处分，并可以依法吊销有关责任人员的执业证书；构成犯罪的，依法追究刑事责任；《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》规定向特定人提供公民个人信息，以及通过信息网络或者其他途径发布公民个人信息的，应当认定为刑法规定的“提供公民个人信息”。因此，掌握个人信息的主体无论是向特定的人提供，还是通过互联网发布个人信息的行为都违反法律规定，情节严重的可能构成侵犯公民个人信息罪；《刑法》还规定，在履行职责或者提供服务过程中获得的公民个人信息，出售或者提供给他人的，依照规定可从重处罚。所以如果疾病预防控制机构、医疗机构工作人员将在履行职责过程中获得的公民个人信息出售或提供给他人的，属于刑法中的加重处罚情节。

（2）兼顾公共利益和个人信息保护

欧盟通用数据保护条例（GDPR）中提出处理个人信息的6个合法性事由中，就包括了为公共利益而执行任务，或数据控制者履行赋予的公共职能时，必须处理个人数据的情形；也就是说，在履行重大公共卫生应急义务时，处理个人信息时即使未征得个人信息主体的同意，也具备合法理由。由此看出这也是国际一贯的态度与做法。国家标准GB/T 35273《信息安全技术个人信息安全规范》中，征得授权同意的例外中包括了“与公共安全、公共卫生、重大公共利益直接相关的情形”，也体现了在特殊时期应当侧重于对公共利益的考虑，简化个人逐个授权同意的步骤。

但是，收集过程的授权过程相对简化不代表使用过程中防护措施的弱化。根据《网络安全法》第四十二条明确规定，网络运营者应当采取技术措施和其他必要措施，确保其收集的个人信息安全，防止信息泄露、毁损、丢失。未经被收集者同意，不得向他人提供个人信息。但是，经过处理无法识别特定个人且不能复原的除外。不难看出，处理数据过程中，需采取技术措施避免直接使用可以直接关联到个人身份的信息，将风险尽可能降到最低，避免个人信息泄露、滥用对引发人身伤害和财产损失，甚至引发公众的恐慌和政府信任的减损等情形。

3.针对疫情防控应用场景的探讨

基于上述思路，对现有应用案例分析如下：

以武汉华南海鲜市场为例，作为最早被确认的“传染源”，应当准确掌握疫情发生前所有在市场出现人员的记录以及后续的行踪轨迹，其中支付/交易信息可以成为突破点。在扫码支付成为主流支付方式的今天，通过市场专用收款终端，以及固定摊主收款手机，可以明确找到最可能感染病毒时间段内所有进出市场购买农产品的人员信息，以支付信息为线索，找到关联的手机号或设备信息，可以结合行程、住宿、导航、收货等还原其行踪轨迹，如果其为重点关注对象，还可以进行二次关联分析，形成以武汉华南海鲜市场为对象的易感人员流动地图，且可以精确到可联系的具体人员。

以汉口火车站为例，作为出入武汉人员最主要的集散地，已经曝出有多辆列车上有确诊/疑似感染的人员，依赖火车站进出闸机以及实名制购票信息可以获知近距离可能感染人员信息。同时，还可以使用关联信息（如手机号）分析其出站后住宿、交易地点、收货地址等信息，形成以汉口火车站为对象的易感人员流动地图，且可以精确到可联系的具体人员。

以武汉出城自驾人员为例，通过时间区间和导航信息可以获知易感人群的行踪路线，同时，还可以通过ETC、沿途交易信息等进一步核对，包括在停留较长的停车带、加油站、服务区，可以进一步作二次关联分析，形成武汉出城自驾易感人员流动地图，且可以精确到可联系的具体人员。

以上只是基于已有数据假设的理论分析，实际的分析过程可操作性还需反复讨论和实践，比如数据源涉及多个行业领域、企业、机构等，如何获取？谁有权获取？谁来分析？如何保护？谁来使用？这就需要构建基于社会大数据的应急响应体系。

三、构建基于大数据的应急响应体系的思路

当前，全社会广泛采集各类人员信息，用于甄别与武汉相关人员的行踪，广泛采集的背后，势必有着一少部分的管理疏忽，使用不当等现象，甚至在人员信息泄漏或非法披露后，相关配合登记工作的人员反而“完全被暴露”在公众视线之下，承受了巨大的心理压力，甚至可能影响其人身安全。而且，对个人信息的保护不力将直接影响到后续信息采集过程中公众、机构对采集方的信任问题导致效率、精度等下降，让助力疫情防控的效果大打折扣。在呼吁抵制传播此类信息，并对相关的违法犯罪行为予以严惩同时，也带来了一些思考，如果采集大量个人信息形成大数据用于疫情防控等公共卫生事件应急，应该设立何种条件，秉承何种思路，如何控制风险？

1.应急体系的启动条件

第一，使用大数据的应急体系启动需要有明确的指令。公共卫生事件是否已经构成大规模威胁，需要有相关部门明确界定后，才能启动基于大数据的应急体系。比如，在全国多个省启动公共卫生事件一级响应后，可以触发相应的启动条件。

第二，使用大数据的应急体系启动前需要明确统一的执行机构。首先，由于人口流动的速度加快，目前公共卫生事件的发生，通常会快速覆盖多个地区，对个人信息的收集，如果处于分散状态，执行标准和管理方式不一致均会带来效率下降和安全风险增加；其次，目前互联网积累的数据通常并不会留存于本地，如果进行跨地区协调，数据汇集的难度增加，速度也会大打折扣。因此，从国家层面建立大数据应急体系的统一执行机构是保证应急机制有效发挥作用的重要前提。

2.应急体系的执行思路

首先，应当建立清晰的调取数据源协调机制。疫情防控所需相关人员的行踪轨迹涉及哪些个人信息类型，需要哪些企业、机构配合，需要有清晰的界定。同时，调取过程必须按需、规范、可溯。

其次，建立数据统一集中管理的机制。运用去标识化、加密等措施对数据进行预处理，在数据关联分析过程中不指向个人身份，在锁定存在风险的对象后，在进一步进行身份重标识处理。

再次，对于关联分析得出存在潜在风险的对象进行分类，并分级别采取对应措施。比如，对全体对象可匿名监测其行踪轨迹的态势，以协助相关部门决策，对于存在与疑似感染人员可能发生接触的人员通过短信、推送通知等方式进行远程提醒，对于存在与确诊感染人员可能发生接触的人员可以由当地相关部门工作人员直接联系予以协助。

3.应急体系的风险控制

大数据汇聚后，自身也成为风险的聚集点，加强对大数据使用的风险控制成为应急体系是否完备的重要检验指标。首先，应明确各环节访问控制、审计、加密等安全措施，防止数据泄露、丢失、未授权的使用等；其次，汇总形成的疫情态势数据属于敏感的重要数据，与公共卫生密切相关，其共享、发布等环节应严格把控，设定警戒红线与紧急干预机制；此外，完成疫情防控应急任务后，应当明确采取技术措施对数据进行匿名化处理后再支撑复盘总结和科学研究。总之采取一切有必要的手段做好风险控制工作是保证大数据成功用于应急保障支撑的关键所在。

当下，很多互联网企业纷纷响应号召，主动参与了支援湖北和武汉的各项行动。然而，对于其掌握的关于湖北和武汉人员相关的数据，或许还处于不敢动、不敢用的阶段。如何推动其向有关部门“捐献”数据，发挥数据的力量来完善应急保障体系，应当成为当下考虑的一种思路。当然，即使在不具备立即实施条件的前提下，开展大数据应急体系的研究、小范围试行等措施也不失为一种有效的尝试。

四、小结

此次武汉冠状病毒疫情传播速度快、传播方式复杂、防控局势严峻等问题，亟待破题。如果将500万人作为监控对象，不运用大数据技术恐怕会显得力不从心，不使用风险分析的手段恐怕很难发挥实效。通过建立基于大数据的应急体系，及时帮助各地有关部门锁定可能接触传染源的人员，使其能及时得到专业的指导和帮助，将对阻断病毒二次传播，控制蔓延态势有着重要意义。同时，建立基于大数据的应急体系，将进一步强化国家应对重大、突发疾病预警响应的能力。合法、合规、合理使用个人信息，一方面有助于规避个人信息被广泛采集、滥用和泄露等情况，另一方面可以为艰难的疫情阻击战点亮一座座灯塔，发挥其应有的作用，是践行安全与发展相统一的生动体现。

（本文刊登于《中国信息安全》杂志2020年第2期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

利用大数据追踪公共卫生事件中传染源的思路探讨

勒索攻击有多难恢复？这家万亿巨头花了9个月才恢复业务系统

因泄露超23.5万患者数据，地方医疗机构赔偿超千万元

《健康医疗数据安全指南》数据安全措施实践