欧洲核子研究组织(CERN)运营着全球最大的OpenStack云,曾不得不重启其整个云基础设施以修复“熔断”和“幽灵”漏洞。
1月3日,CPU安全漏洞“熔断”和“幽灵”公布,引发全球IT用户和云运营商一片大哗。5月24日,温哥华OpenStack峰会上,运营者揭示了他们修复熔断漏洞的过程,阐述了修复过程耗时良久的原因。
说到OpenStack,世界上没有哪家运营商比托管着大型强子碰撞型加速装置和容纳有30万枚计算核心OpenStack云基础设施的CERN更大的了。Arne Wiebalck 负责 CERN OpenStack 云的整体运营,当“熔断”和“幽灵”之类的漏洞出现,他就得做出响应,部署相应的修复措施。
他说:“CERN通常会在寒假期间休息两周,所以这事儿还是大家都在家休息的时候知道的。”
CERN有一支专门负责网络安全的团队,Wiebalck的运营团队与该安全团队合作,一起弄清缓解“熔断”和“幽灵”漏洞风险所需的动作或措施。
我们最后决定关停整个云进行修复。
鉴于CERN OpenStack 云的规模,关闭和修复势必会一个痛苦的过程。Wiebalck的团队不得不重启超过3万台虚拟机,并通告成千上万的CERN云用户该重启事件。
我们的云已经在生产环境中上线了约5年之久,这还是第一次不得不真的全部关停。
CERN当然没有一次性全部关停,而是在数天之内分阶段执行修复、关停和重启过程。CERN运用了迭代的过程,最初关闭了约200个虚拟机管理程序以检查错误并查看能否顺利恢复。
虽然CERN像大多数大型IT商店一样采用自动化过程,但涉及到“熔断”和“幽灵”漏洞修复与重启,其间的大量手动过程还是不得不出动人力来执行并监控。
真的是人力,我们当然有工具可以通联数百台机器,但确实是我和我的同事在或多或少地手动执行这些过程。
OpenStack基础设施
Clarke Boylan 是OpenStack基础设施项目的项目技术负责人,用于构建全球云中所用OpenStack软件的系统就归他负责。与CERN的Wiebalck类似,他也不得不重启大量系统以修复“熔断”和“幽灵”漏洞。
Boylan称,OpenStack基础设施团队成员分担了修复工作,利用Ansible配置管理技术确保已修复的内核部署到位。
我们仍然分派了人手仔细观察,确保服务在重新上线的时候以预期的方式运行。
除了“熔断”和“幽灵”漏洞,还有对潜在性能降级问题的担忧,Boylan的团队同样对该问题加以了监测。OpenStack基础设施团队的最优先事项,是尽快部署Linux内核补丁。
更进一步,OpenStack Nova 计算项目开发人员添加了一项新功能,可增强对CPU功能标志的控制,让云运营者可以限制对CPU较危险部分的访问,缓解补丁对性能的影响。
经验教训
对OpenStack社区中像前 OpenStack Barbican 秘密管理项目技术负责人,现思科工程师 Dave McCowan 这样的人来说,“熔断”和“幽灵”问题给云运营者上了一课。
经验教训就是要为任何不测事件做好准备。在考虑构建云和规划工具的时候,要知道你可能需要从硬件上修复或更换系统中的任何东西。
声明:本文来自安全牛,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。