安全团队如今收集的数据可谓海量。企业战略集团(ESG)的研究表明,38%的企业每个月安全运营中要收集、处理和分析10TB以上的数据。都是什么类型的数据呢?最大的数据源包括:防火墙日志、其他安全设备的日志数据、网络设备的日志数据、反病毒(AV)工具产生的数据、用户活动日志、应用日志等等。

值得指出的是,收集来的安全数据数量每年都在增长。事实上,28%的企业称现在比2年前收集、处理和分析的数据量多了很多,而另外49%的企业称当前处理数据量比2年前多了一些。

总的来说,这种对安全数据的痴迷是件好事儿。大堆数据中总会藏着少量有价值的精华。那么理论上,数据越多,等于精华越多。

然而,不幸的是,数据越多,垃圾数据也就越多。总有人得去梳理数据,转译数据,让数据有意义,能使用。而且,基本的存储问题也是存在的。是全部数据都存储下来呢?还是定义某种价值分类方法,保留有价值数据,扔掉其他的?是集中存储,还是分布式存储?是放在自家内部网络上,还是置于云端?还有,到底该怎么管理这所有的数据:关系数据库管理系统(RDBM)?分布式多用户全文搜索引擎Elastic?分布式系统基础架构Hadoop?SIEM?

面对问题吧!安全就是个大数据应用,是时候统合安全行业和网络安全人士,考虑安全数据问题,想出共有的解决方案了。

此处有些建议可供参考:

1. 我们需要倍加重视数据规范

是的,我们有一些标准格式,出自MITRE这样的组织,比如STIX、TAXII、CVE列表等等。但常见的抱怨是,这些标准都太复杂了,而且主要用于美国联邦政府。我们需要创建简单的标准数据封装,可以用在几乎全部安全数据上的那种。

举个例子,不用舍近求远,就看看Splunk吧。该公司建议采用通用信息模型(CIM)标准,来规范所有数据。这样就可以更容易地检索数据,将数据置于上下文中理解,并能关联不同系统中的数据元素。作为一个行业,我们需要的,是全部安全数据都能遵从类似CIM的一个开箱即用的模型,让每个人都可以更轻松地处理数据。

2. 所有安全数据都应可通过标准API使用

除了通用格式,所有分析工具、SaaS产品,还有数据仓库,都应提供通过标准API导入/导出数据的功能。比如这样一个用例:公司网络中有SIEM和网络分析工具,但外包了终端检测与响应(EDR)和威胁情报分析工作给SaaS提供商。当公司安全运营中心(SOC)团队检测到安全事件,他们应能通过想用的任意工具(或多个工具),即时从所有源分析全部数据。

我们需要数据能通过标准API进行实时导入/导出,以便可以简单有效地实时按需取用数据。

3. 企业需要分布式安全数据管理服务

今天的安全运营环境中,同样的数据会在不同分析工具中收集处理多次。这样非常浪费。为提升安全数据的效率和有效性,所有安全遥测都应通过分布式数据管理服务加以收集、处理、规范化并提供使用。

应澄清的一点是,数据并非就在分布式数据管理服务中加以分析。相反,数据应通过标准接口,以通用格式呈现给所有类型的分析工具。此类安全数据管理服务,还应负责基本的维护和安全操作。比如备份/恢复、归档、数据压缩、加密等等。分布式安全数据管理服务可能会在内部存储一些数据,然后自动过期并归档其他数据到更便宜的存储上(如磁带、云等)。注意:分布式安全数据管理服务,是ESG的SOAPA多层架构中的一层。

4. CISO必须拥抱人工智能和机器学习

鉴于安全数据规模的增长,知道数据的类型、位置、含义,清楚怎样整合数据的人的数量,就显得非常的小,且还在持续缩小中。几乎可以断定,我们实际上已经跨越了人类可以有效处理这些数据的那条线。是时候让机器来做那繁重的多层数据分析工作,为人类总结归纳数据,只把困难的决策工作留给人类就好。

好消息是,已经有很多安全类AI创新,很多解决方案也走到了实用阶段。坏消息是,市场上炒作太多,干货太少。给CISO的建议是:货物出门概不退换,买者自行小心,将大量资源投入研究、信息邀请书(RFI)/建议邀请书(RFP)和概念验证项目中。

5. 尽量自动化,更多自动化

任何可被自动化的东西都应该自动化,包括数据收集、数据规范化、数据分发、数据分析和自动化修复。人类应降到安全数据周期的末端,专注困难的调查和决策。

面对现实,好心的安全团队被如今庞大的数据量淹没。他们奋不顾身,尽力而为,但现实结果却冰冷残酷:随着安全数据规模上升,安全人员只能导出价值的增量部分。你甚至可以得出这样的结论:更多安全数据需要的额外操作开销,实际上会减少数据的价值——当今很多企业的现状。

要让增加的数据更有用,我们需要让它更易于消费、分析和操作化。而要达到这一点,安全行业和网络安全从业者需要精诚合作,共同努力。

声明:本文来自安全牛,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。