文 | 中国移动通信研究院研究员 张伶;北京邮电大学世纪学院基础教学部副教授 郑小升

“微软蓝屏”事件引发全球范围信息系统运营与服务的大灾难,凸显了关键软硬件已经成为国家甚至全球关键基础设施的重要性。因此,需要与时俱进,提升国家网络安全能力,应对数字时代的新挑战。

一、“微软蓝屏”事件分析与历史比较

2024 年 7 月 19 日,全球 20 多个国家的机场、医院、银行、商业中心、办公室的电脑出现蓝屏,业务受到影响甚至中断,运行在云端的基于 Windows 的服务器也未能幸免于难。

(一)“微软蓝屏”事件分析

此次事故的原因是微软 Windows 系统上运行的美国电脑安全技术公司“众击”(CrowdStrike)的 Falcon 软件更新包由于配置错误,导致操作系统内核故障。

“众击”公司的 Falcon 软件是一款反恶意软件工具,同时也是一个应用程序分析工具,安装在计算机、服务器和移动设备等“端点”上,是一款非常先进且典型的端点检测与响应(EDR)产品。Falcon 包含一个内核驱动程序,具有在 Windows 操作系统内核运行的特权,这使得 Falcon 能够从有利的位置监控系统上各类应用程序的行为,从而实现对恶意软件的早期发现、预警和处置。正是由于它处于操作系统的“心腹”位置,反而成了操作系统的“心腹大患”。

由于“众击”公司需要不断向系统添加检测功能以防御新出现和不断演变的威胁,因此,Falcon需要获得权限以自动和定期更新。根据“众击”公司的说法,此次更新源于一项“管道文件”(channel file),尽管更新文件使用的是“.sys”扩展名,但它本身并不是内核驱动程序,而是与 Falcon 传感器中的其他组件进行通信,这些组件与 Windows 内核运行在同一空间中。由于代码编写错误,从而引发内存读取越界,即访问未经授权或未分配的内存位置,触发了操作系统异常。这是一种内存安全管理机制,如果程序试图访问或读取超出分配给它(或它合法范围内)的内存区域的行为,可能会破坏其他内存区域,导致程序崩溃或产生不正确的结果。后续“众击”和微软发布的分析报告均证实了这一点,即崩溃是由众击的 CSagent.sys 驱动程序中的越界内存安全错误引发。

(二)历史上其他大规模宕机事件

在历史上,如此大规模的网络事故并不多见,但每次发生都昭示着安全威胁进入了新阶段,需要新的安全技术和机制来应对。

20 世纪 80 年代,互联网的扩展逐渐触及全球科研系统,随着联网节点的显著增加,新型攻击方式例如拒绝服务攻击(DoS)开始出现,这促使了对网络事故应急响应机制的需求。1988 年 11 月,美国康奈尔大学的研究生罗伯特·塔潘·莫里斯(Robert Tappan Morris),出于探索互联网的规模和连接设备数量的目的,编写了一个具有自我复制能力的程序。该程序设计上能够在计算机之间传播,并要求每个被感染的机器向一个控制服务器发送信号以便进行计数。然而,该程序的传播速度远超预期,导致约 10% 的互联网计算机被感染,并迅速演变为一场大规模的拒绝服务攻击。这场攻击使得大量使用 Unix 操作系统的计算机陷入瘫痪或半瘫痪状态,给全球造成了约 6000 万美元的经济损失,即“莫里斯蠕虫”事件。普渡大学和伯克利大学的研究人员经过 72 个小时的努力才成功阻止了该病毒的传播。此次事件不仅使互联网专家们意识到了拒绝服务攻击这一全新的攻击方式,还促使卡内基梅隆大学建立了世界上第一个计算机应急响应小组(CERT)。随后,美国联邦政府以及多数国家相继建立了类似的组织,应急响应成为应对大规模网络安全事故的基础性机制。

20 世纪 90 年代,互联网逐渐走出“象牙塔”,进入大众生活,与此同时,计算机病毒成为网络空间中普遍存在的问题。随着 21 世纪的到来,互联网展现出巨大的商业潜力和价值,网络攻击的动机也由最初的“极客炫技”转变为主转变为实现政治、经济和社会目标,安全事件的影响范围和造成的经济损失随之呈指数级增长。2000 年爆发的爱虫病毒(Vbs.loveletter),通过 Windows 邮件系统传播,感染了全球超过 100 万台计算机,约占当时全球联网计算机的 10%,造成超过 100 亿美元的经济损失。这一事件标志着微软牺牲安全性以追求新功能和便利性的时代结束,全球开始严肃对待 Windows 操作系统及其加载软件的安全问题,同时意识到通过电子邮件进行社会工程攻击的破坏性。此外,由于爱虫病毒疑似由一位菲律宾黑客制造,这进一步凸显了网络犯罪的国际性,促使美国推动欧洲委员会成员国于 2001 年签署《网络犯罪公约》。

2001 年爆发的“红色代码”(Code Red)蠕虫病毒,利用了微软网络服务器软件中的漏洞进行传播,导致大范围的网络访问速度减慢甚至中断,给全球造成了高达 107 亿美元的经济损失。“红色代码”蠕虫的出现标志着蠕虫技术上的一种“进步”:它是首个不以文件形式存在,而是直接在内存中传播的蠕虫,无需用户点击即可感染其他计算机,从而极大地提高了传播速度。这一事件向网络安全行业发出了警示,即安全补丁的更新速度必须加快,并且需要开发自动安装更新的工具。此外,由于该病毒使用 HTTP 协议作为传播通道,这给响应部门实施安全阻断与隔离带来了挑战,因此,要求国家网络安全应急响应机制进行调整。除了建立国家级的 CERT 外,还需要将互联网运营商纳入应急响应合作体系,以共同应对此类网络安全事件。

2003 年 1 月,SQL Slammer 蠕虫病毒爆发。它利用了 Microsoft SQL Server 2000 中的缓冲区溢出漏洞进行传播,在几分钟内迅速感染了超过 75000 台机器,并在全球范围影响了超过 25 万台机器,成为迄今为止传播速度最快的病毒之一。在韩国,这一蠕虫病毒导致 2700 万人的互联网和手机网络服务中断;在美国,约 13000 台自动取款机(ATM)暂时无法提供服务。虽然 Slammer 并非零日漏洞,但其迅猛的传播速度和广泛的影响再次提醒全世界,修补系统漏洞必须迅速且及时。随着 2010 年后零日漏洞概念的提出,对漏洞修复和快速响应机制提出了新的、更高的要求。

2010 年,安全软件公司麦卡菲(McAfee)向运行 Windows XP 操作系统的 PC 提供了一份存在缺陷的病毒定义(DAT)文件。该文件错误地将一个关键的 Windows 系统文件 Svchost.exe 识别为病毒并予以删除,导致受影响的系统陷入重启循环并不能连接到网络。该事故导致包括英特尔在内的多家财富 500 强企业以及全球机构受到影响,凸显了安全软件公司的错误更新可能造成的全球性安全问题。

2017 年 6 月,冒充勒索软件的 NotPetya 爆发。该软件利用了 Windows 服务器消息块(SMB)协议中的一个漏洞,先是感染了乌克兰 80 多家公司,随后迅速扩散到全球范围内的金融、交通、能源、商业设施和医疗保健等多个组织的计算机系统,造成了超过 100 亿美元的经济损失,被称为“有史以来最具经济破坏性的网络攻击”。仅仅五周后,勒索软件 WannaCry 席卷全球,标志着勒索软件危机时代的开始。这两款软件都利用了美国国家安全局(NSA)开发的漏洞利用工具“永恒之蓝”(Eternal Blue),使得勒索软件不再只是一种网络犯罪形式,而是对国家安全的严重威胁,同时也揭示了美国网络武器扩散带来的全球性风险。

2024 年上半年,全球各地频繁发生了局部断网事件,这些断网事件背后的原因多种多样,包括伴随军事冲突和地缘政治危机的网络破坏、政府为控制国家内部群体性事件下令关闭网络、黑客团体发起的网络攻击、技术维护和停电造成的网络中断,以及多起海底电缆切断事件。根据互联网监测平台 NetBlocks 的测算,全球断网一天的经济损失高达 430 亿美元。其中,美国和中国是受影响最严重的两个国家,断网一天的损失分别达到 110 亿美元和 100 亿美元。

由上述重大全球宕机事件可以看出,导致大规模宕机事件的网络安全原因通常具有传播速度快、影响范围广和连锁效应强等特点,这些事件容易造成社会运行障碍、巨大的经济损失和公众恐慌等负面后果,同时也极大地影响了公众对服务提供商的信任。然而,这些大规模的宕机事件也迫使安全技术和机制得到改进,完善了相关法律法规和监管措施,并增强了公众的安全意识。

在众多的网络宕机事件中,这次“微软蓝屏”事件的影响和损失超过了以往的任何一次。但与以往不同的是,它并非由黑客攻击引发,而是软件质量问题所致。这再次警示我们,关键软硬件已成为国家乃至全球关键基础设施的重要组成部分。随着世界稳定运行日益依赖于数字基础设施,其安全问题已不再仅限于网络安全,而是包括信息安全、网络安全、IT 安全、运营(OT)安全、物联网安全、物理/环境安全等多个领域,构成了一个更为广泛的安全概念。传统的网络安全理念和手段已无法满足日益复杂的安全需求,迫切需要建立一个内生的、更具韧性、敏捷和协同的网络安全防御体系。

二、“微软蓝屏”事件对做好我国网络安全保障的启示

当前,我国正处于数字化转型的关键阶段,“上云用数赋智”加快推进,建强数字安全屏障成为当务之急。

(一)软件与软件供应链安全仍是安全的源点

随着全球数字化转型的加速演进,数字世界与虚拟世界日益融合,建立在数字基础设施之上的现代社会正在加快形成,因而,数字“地基”的牢固性成为一切的前提。在数字世界的“倒金字塔”结构中,软件操作系统及其安防体系构成了金字塔的基石,它们是网络安全的关键,更是数字基础设施的核心部分。

此次“微软蓝屏”事件中,一个第三方公司发布的带有缺陷的小更新包击中了微软操作系统“开放内核”机制的弱点,导致了整个 Windows 主机系统的大规模崩溃。事实上,在“微软蓝屏”事件发生前的一个月,“众击”公司已经经历一次软件更新危机。当时,该公司发布了一个针对 Falcon 传感器的检测逻辑更新,但很快发现该更新可能会导致 Falcon 传感器完全占用 Windows 主机的 CPU 资源。公司迅速采取了回滚措施,受影响的客户通过重启设备恢复了正常操作。然而,好运并没有再次降临。由此我们看到,软件质量的重要性不容忽视。无论是软件缺陷、代码安全问题,还是软件更新与维护,任何一个环节出现失误,都可能引发连锁反应,导致安全体系崩溃。因此,我们必须从软件工程师的基础教育层面推广“设计安全”和“默认安全”的理念,采用内存安全的编程语言和内存安全的芯片架构,在产品的设计和默认设置中嵌入安全性,以减少潜在的安全漏洞,从而提高系统的整体安全性。

此次事件也再次凸显了软件供应链安全的重要性,尤其是安全软件的供应链安全,包括供应商依赖性、软件间的适配性、软件更新管理的安全性、软件信任与认证体系以及产品的自主可控等。随着数字系统所涉及的软硬件产品和部件的日益复杂化,供应链产品已经深入应用到国家关键基础设施和重要机构的信息系统/工业控制系统中。根据 Cybersecurity Ventures 的预测,到 2031 年,软件供应链攻击对全球企业造成的成本损失将达到接近 1380 亿美元。

我国是全球最大的软件市场之一,但许多供应链企业由于安全意识不足或缺乏充分的安全投入,导致安全测试不充分,这成为网络安全链条中的薄弱环节。为了系统性地提升我国软件供应链的安全性,必须进行供应链网络安全能力成熟度的检测、评估和认证等工作,以提高诊断和衡量软件安全性的能力。此外,构建高质量的网络安全产业生态,并加强人才培养,完善相关的标准法规建设等也是不容忽视的工作。

(二)没有完美的安全解决方案,只有与时俱进的防护能力

由于我国安装和使用“众击”公司软件的系统较少,这次大规模宕机事件并未对我国造成直接影响,但这并不意味着我们未来不会遇到类似的事故。这次“微软蓝屏”事件反映了网络安全面临的一些传统困境,例如在主干与多样性之间、更高的安全性与更高的权限之间、封闭与开放之间寻求平衡等。要破解这些困境,唯一的办法就是与时俱进地提高安全防护能力。

此次事件也警示我们,数字世界依赖于少数几个单一技术平台是非常危险的。正如健康的生态圈需要生物多样性一样,数字世界也需要建立在多样性的基础之上。然而,数字技术的发展天然倾向于形成“平台型”的主干系统,而一旦这样的系统形成,它们很难被打破或替换,替换的时间成本和资源成本也较高,还可能引入新的安全风险。因此,解决办法不仅需要提升主干系统的安全性,同时也需要减少对单一供应商的依赖。

要实现对系统安全性的全面掌握,并及时甚至提前做出响应,获取内核访问权限是当前最高效的方式。然而,这种高权限一旦出现故障或被黑客攻击,其后果将是灾难性的。同样,如果一个主导型软件不开放内核权限,可能会引发“垄断”的质疑。2006 年,微软尝试在 Window Visita 上限制第三方软件访问其内核,完全依赖自己的安全系统 Windows Defender(WD)来增强内核安全性。但此举引发了网络安全厂商的抗议和欧盟“反垄断”审查,微软最终做出让步,允许了 Flacon 软件的进入。尽管这一决策导致了今天的重大事故,但“众击”公司的安全理念与技术领先于传统网络安全公司,较好适应了当下的安全需求。

(三)应急不是急应,需要建立敏捷联动的预警与响应机制

“众击”公司在原始更新发布的 78 分钟内发布了修复程序,但仍然使大约 850 万台安装了微软 Windows 系统设备受到软件更新故障的影响,预计损失将达到数十亿美元。

随着全球数字化转型的加速,万物互联使得不同领域的融合日益紧密,网络系统的复杂性呈指数级增加,应急响应面临协同调度难、出错成本高、时间压力大、不确定性强等多重挑战。安全事故的级联性和体系性大大增加,同时也可能产生难以预知的涌现效应,即单点网络攻击可能在其他区域造成连锁甚至雪崩式影响。传统的树状或星形应急响应模式已经不能满足需求,需要建立更加敏捷、扁平且有利于联动、更能快速发挥各自专长的新型响应体系。2017 年,WannaCry勒索软件的高速、大规模感染已经表明,各行各业,甚至每个用户都需要参与到应急响应中来,形成“群联群防”体系。

此外,仅仅响应已经不够,我们还需要将响应“左移”,即从事中、事后响应向事前响应覆盖,建立一个一体化、智能化的大预警体系,将危机消灭在源头。值得注意的是,“群联群防”体系不应是各自为战的“急应”模式,而需要各级各类组织制定事件响应(IR)计划和业务连续性手册,加强备份和恢复机制,做好常态化的安全检查、更新和演练,以增强全民的网络安全素养。对于影响社会稳定运行的关键系统,应保持适当的安全区隔,特别是在向智能时代转型的过程中,自动驾驶汽车、飞机等仍需要通过安全区隔来保障核心系统的安全,防止级联性安全事故。

数字安全挑战是一个永无止境的全球性课题,在网络空间日益碎片化的今天,一次又一次的全球性网络安全事件也提醒我们全球协作的必要性。

(本文刊登于《中国信息安全》杂志2024年第7期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。