编者按

美国高科技技术研究和咨询公司未来集团(The Future Group)发文,深度还原CrowdStrike中断事件,并分析事件启示的经验教训。

文件称,此次IT中断事件并非一次安全事件,而是补丁更新管理不善导致的大范围破坏问题,网络安全公司CrowdStrike推送的有缺陷更新导致运行其软件的Microsoft Windows机器出现“蓝屏死机”故障,从而造成全球大范围运营中断;此次事件影响了医疗、金融、交通、制造、传媒等全球诸多行业,造成导致航班停飞、广播停播、医疗保健和银行等基本服务暂停;事件对全球产生了深远影响,凸显了各行各业对网络安全服务的严重依赖、全球数字基础设施的脆弱性和网络安全单点故障的连锁效应;事件进一步警示出,全球数字经济相互交织,网络安全在确保基本服务顺利运行方面发挥着关键作用,必须增强网络安全框架弹性;此次事件最严重的缺陷不仅仅是更新缺陷,还有更新的部署流程,在互联且复杂的云、软件和服务网络中,在客户群中过快、过大范围地推出更新可能会带来灾难性的后果;事件凸显出对强大部署流程的迫切需求,采取受控和管理的部署对于最大限度地降低大面积中断的风险并确保系统平稳运行至关重要,从而确保在进行更大规模或全面部署前不会产生服务、兼容性、安全性或其他问题;事件警示出软件供应商有效补丁管理的重要性,并凸显了客户仍然需要对其扩展软件供应链的可靠性负责。

文章称,此次中断事件凸显了安全性、功能性和法规间的复杂相互作用,为开发人员提供了宝贵的教训,敦促其在应对不断变化的监管环境的同时优先考虑稳健的开发实践。具体经验教训包括:一是通过严格的代码审查实践和全面的测试程序开展深度代码审查和测试,投资于静态代码分析工具和单元测试框架,以便在部署前发现潜在问题;二是探索实施细粒度权限模型的可能性,将软件限制在内核中的特定功能,并考虑对关键系统组件进行“沙盒”处理以减轻潜在错误的影响;三是积极参与定义和遵守安全软件与操作系统交互的行业标准,通过标准化安全软件开发工作减少兼容性问题和潜在漏洞;四是与用户和系统管理员开展清晰透明的沟通,提供详细的补丁说明并概述与更新相关的更改和潜在风险,制定明确的回滚计划以防出现不可预见的问题;五是在安全性和功能性找到微妙平衡点,既优先考虑安全性,又不损害重要功能;六是跟踪了解目标市场的监管环境,根据不断变化的监管情况相应地调整开发实践。

奇安网情局编译有关情况,供读者参考。

7月19日,网络安全公司CrowdStrike推送的更新导致运行其软件的Microsoft Windows机器出现“蓝屏死机”故障,从而造成全球中断。此次IT中断对全球产生了深远影响,凸显了各行各业对网络安全服务的严重依赖。以强大的网络安全解决方案而闻名的CrowdStrike经历了前所未有的宕机,影响了全球多个行业,导致严重的运营中断,并凸显了数字基础设施的漏洞。

最显著的影响之一是英国国家医疗服务体系(NHS)。NHS严重依赖CrowdStrike提供网络安全保护,其运营面临严重中断。此次中断影响了患者护理系统、电子健康记录和预约安排,导致医疗服务延误,患者等待时间增加。这种停机成本不仅是经济上的,也是人力上的,因为关键的医疗服务受到损害,可能危及生命。

在金融领域,摩根大通、汇丰银行和德意志银行等大型银行经历了严重的业务放缓和安全漏洞。依赖实时网络安全监控来防范欺诈和网络攻击的金融机构暴露在风险之中。这种漏洞导致网上银行服务暂时关闭和股票交易中断,造成了相当大的经济影响并动摇了投资者信心。分支机构受到的影响尤其严重,因为一线出纳员不得不处理心怀不满的客户。

交通运输业也受到了严重影响。联合航空和美国航空等航空公司报告称,其预订系统和航班运营出现中断。此次中断导致航班延误、取消,给大量乘客带来不便,进一步加剧了该行业本已在应对疫情后复苏挑战的财务压力。

制造业受到了影响,尤其是在德国和日本等国家,这些国家的先进制造业依赖安全的IT环境才能高效运作。网络安全系统故障导致生产停止、供应链中断,并可能侵犯知识产权,从而造成重大财务损失和运营效率低下。

CrowdStrike中断造成的损失不仅限于直接的财务影响。例如,宕机时间凸显了全球数字基础设施的脆弱性以及网络安全单点故障的连锁效应。各公司现在正在重新评估其网络安全策略,考虑更强大的冗余计划,并寻求多层次的安全解决方案以减轻未来此类风险。

总体而言,CrowdStrike IT中断事件清楚地提醒我们,全球数字经济相互交织,网络安全在确保基本服务顺利运行方面发挥着关键作用。此次事件凸显了增强网络安全框架弹性的必要性,以防止未来发生中断并保障社会福祉。

发生了什么?

大范围的Windows中断是由于CrowdStrike的Falcon 传感器更新中存在缺陷,导致Microsoft Windows设备出现蓝屏死机(BSOD),系统无法使用,并造成大范围的运营中断。此缺陷导致运行CrowdStrike软件的Microsoft Windows系统无法运行,Windows系统无法启动。

CrowdStrike向Windows系统推送了有缺陷的更新,导致澳大利亚和欧洲出现设备暂停,导致航空旅行停飞,英国广播公司SkyNews下线、Microsoft 365暂停,全球范围内运行CrowdStrike软件的Windows系统瘫痪。Linux和MacOS系统未受到影响。CrowdStrike的更新由“内容”而非软件组成。导致Windows崩溃的CrowdStirke内容更新的具体内容被主机设备上执行的Falcon传感器使用。

CrowdStrike迅速做出反应,发布了更新修复程序,并积极与全球客户合作恢复Windows系统。2024年7月19日,美国东部时间5时45分,CrowdStrike首席执行官乔治·库尔茨在社交媒体平台X上发布了一则通知,承认了此次中断,并表示已经确定了根本原因,并提供了修复更新。

CrowdStrike的补救建议要求重新启动受影响的Windows系统,这些系统也将收到更新。虚拟化的基于云的服务器和设备可以远程关闭电源以应用更新。Windows设备仍然崩溃,需要管理员将Windows启动到安全模式或Windows恢复环境,导航到CrowdStrike目录,然后手动删除有缺陷的更新文件。CrowdStrike中断影响如此大的一个原因是非托管和远程Windows设备,这需要管理员对设备进行物理访问。

然而,在事件响应和补救工作中,必须认识到,CrowdStrike此次中断事件中最严重的缺陷不仅仅是更新缺陷,还有部署流程,导致影响服务的更新影响如此庞大的客户群。在互联且复杂的云、软件和服务网络中,在客户群中过快、过大地推出更新可能会带来灾难性的后果。虽然更新部署过程的细节尚未完全公布,但很明显,CloudStrike的中断事件不仅是由于底层软件缺陷,还因为部署流程未能迅速检测到此缺陷对客户环境的影响。

CrowdStrike事件凸显了对强大部署流程的迫切需求。此流程利用了包括交错部署、A-B 部署、金丝雀部署和分阶段部署在内的策略,涉及分多个阶段向目标设备子集发布更新。通过在不同阶段验证更新,组织可以确保在进行更大规模或全面部署前不会产生服务、兼容性、安全性或其他问题。这种受控和管理的部署对于最大限度地降低大面积中断的风险并确保系统平稳运行至关重要。

这是一次安全事件吗?

简而言之,这不是一个安全事件。这是一个补丁更新管理不善导致大范围破坏的问题。然而,重要的是要了解造成的损害如此严重,因为CrowdStrike Falcon需要特权内核访问才能执行其许多关键功能,包括系统的可见性和监控、应用程序和进程行为的监控和分析以及某些补救措施。这种低级访问扩大了潜在的攻击面,这意味着即使是补丁更新中的一个简单错误也可能造成严重损害,鉴于自动化和软件定义架构的发生率不断增长,这种损害可能会像野火一样蔓延。

这一事件清楚地提醒了软件供应商有效补丁管理的重要性。不幸的是,这也凸显了客户仍然需要对其扩展软件供应链的可靠性负责。这绝非易事。任何企业都拥有数十种安全工具,根据Futurum Group的网络安全决策者数据,超过一半的组织计划在2024年增加新的网络安全供应商,45%的组织计划增加新的网络安全产品类别——主要是为了应对快速发展的威胁形势。对于IT运营和安全团队来说,这也清楚地提醒了系统级弹性以及风险和事件补救流程的重要性,不仅在网络攻击后,而且在人为错误和其他灾难事件中也是如此。预计许多企业将对弹性和安全性进行彻底的审计,以及渗透测试。

运营团队正在做什么来恢复?

如前所述,CrowdStrike通过初始更新中使用的相同自动部署功能发布了修复程序。虽然对于未遇到蓝屏死机(BSOD)的系统很有帮助,但更新方法不能用于处于停机状态的机器。操作员必须找到一种方法来在公司的自动更新功能外删除CrowdStrike更新。

恢复分为两类:物理恢复和虚拟恢复。

虚拟:每种恢复方法都由运营团队利用的数据保护流程决定。拥有强大系统快照流程的组织可以将整个系统或CrowdStrike更新回滚到已知良好状态。此过程通常是即时的,基于云或虚拟化的系统可在几秒到几分钟内恢复。

对于近期没有备份的公司,流程是通过创建与系统的远程连接并删除CrowdStrike更新来手动回滚更新。大型组织可能会选择编写自动化脚本,系统地连接到每台受影响的机器并删除更新。

物理:物理恢复过程类似。但是,物理机器会受到设备位置的影响。操作员可能需要物理访问受影响的机器才能从备份中恢复或手动删除文件。使用磁盘加密使物理恢复更加复杂。

作为Windows安全的一部分,Microsoft在其BitLocker功能中提供全盘加密。该功能旨在保护物理系统免受入侵者的侵害。该功能使客户能够将Windows电脑放置在相当公共的位置,同时限制安全风险。但是,当系统需要手动干预时,它会带来挑战。在回滚CrowdStrike更新的情况下,有人需要在启动时手动输入一个长加密密钥。

BitLocker对虚拟化环境来说不是问题,因为Microsoft不支持此功能用于托管操作系统文件的磁盘。BitLocker可用于虚拟化系统上的数据卷。

许多组织已招募最终用户来做这项工作,这减慢了许多环境的恢复速度。作为未来补救措施的一部分,公司可能会开始寻求允许在硬件层远程访问系统的解决方案。

架构问题

最佳做法是将操作系统和应用程序二进制文件放在与应用程序数据不同的逻辑磁盘上。一些使用最新操作系统的客户发现,操作系统的恢复点目标(RPO)在所需的服务级别范围内,但应用程序数据的RPO却不在。根据快照技术的备份,这实际上使备份在CrowdStrike场景中毫无用处。

操作系统映像工程师应将应用程序数据环境变量设置为指向数据卷,而不是系统卷(目前大多数Windows应用程序的默认卷)。在创建应用程序部署框架时,开发人员在选择默认安装路径时应考虑到这一点。

代码、混乱、合规性以及

CrowdStrike中断带来的教训

该事件暴露了看似无害的软件更新可能引发大范围混乱的可能性。但除了技术故障之外,还有一个更深层次的问题:安全最佳实践与监管限制间的矛盾。欧盟委员会与微软的长期协议让这一挑战备受关注,一些人认为这限制了微软实施更严格安全措施的能力。这种多方面的情况为开发人员提供了宝贵的教训,敦促他们在应对不断变化的监管环境的同时,优先考虑稳健的开发实践。

CrowdStrike中断和欧盟协议

给开发人员的教训

CrowdStrike中断凸显了安全性、功能性和法规间的复杂相互作用。

开发人员可以学到以下内容:

1. 深度代码审查和测试:据报道,此次中断源于CrowdStrike更新中可能存在的错误。这凸显了严格的代码审查实践和全面的测试程序的重要性,尤其是在处理内核级交互时。投资静态代码分析工具和单元测试框架,以便在部署之前发现潜在问题。

2. 细粒度权限和沙盒:内核级访问赋予安全软件巨大的权力。探索实施细粒度权限模型的可能性,将软件限制在内核中的特定功能。此外,考虑对关键系统组件进行沙盒处理,以减轻潜在错误的影响。

3. 遵守行业标准:安全软件开发中的标准化工作有助于减少兼容性问题和潜在漏洞。积极参与定义和遵守安全软件与操作系统交互的行业标准。

4. 透明度和沟通:与用户和系统管理员清晰的沟通至关重要。开发人员应提供详细的补丁说明,概述与更新相关的更改和潜在风险。此外,要制定明确的回滚计划,以防出现不可预见的问题。

5. 平衡法:欧盟协议强调了安全性和功能性间的微妙平衡。苹果限制内核访问以提高安全性的方法提供了另一种视角。开发人员应努力找到一种平衡点,既优先考虑安全性,又不损害重要功能。

6. 了解监管环境:了解目标市场的监管环境。欧盟对微软的竞争担忧表明了监管对软件开发的潜在影响。随时了解不断变化的监管情况,并相应地调整开发实践。

CrowdStrike事件清楚地提醒了在整个软件开发生命周期(SDLC)中负责任的软件开发的重要性。通过吸取这些教训并促进开放式沟通,开发人员可以构建并确保更强大、更安全的软件解决方案。

展望未来

此次中断对全球依赖其网络安全解决方案的各行各业产生了重大影响。从长远来看,此次中断对CrowdStrike构成了挑战。尽管该公司一直在积极解决漏洞并实施纠正措施,但此次事件凸显了其安全基础设施中的潜在弱点。鉴于此次中断的高调性质,预计客户和利益相关者将加强审查,这可能会影响未来的业务前景。

从监管角度来看,欧盟监管机构越来越关注数字弹性,而《数字运营弹性法案》(DORA)体现了这一趋势。DORA旨在建立一个全面的数字运营弹性框架,确保金融实体能够承受、应对和恢复所有类型的ICT相关中断和威胁。该法规将对CrowdStrike等网络安全提供商提出严格要求,以维护强大而有弹性的系统。

CrowdStrike中断事件可能会加速此类法规的实施,尤其是在欧盟,当地监管机构热衷于加强网络安全措施。公司不仅需要证明自己遵守了这些法规,还需要证明自己采取了主动方法来识别和缓解漏洞。随着网络安全监管越来越严格,CrowdStrike及其同行将需要适应这些不断发展的标准,以保持其市场地位。

总之,虽然CrowdStrike中断暴露了某些漏洞并带来了直接挑战,但该公司的快速响应和市场反应表明其有复苏的潜力。然而,监管部门对网络安全的关注度不断提高,尤其是在欧盟,这将需要持续保持警惕并适应新标准,以确保其服务的长期弹性和信任度。

声明:本文来自奇安网情局,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。