工作来源
ARES 2022
工作背景
没有任何一种反病毒解决方案可以普遍有效地抵御各种威胁,不同的解决方案会在检测率与检测分类上产生显著差异。
每年在野传播的恶意软件超过 8 亿个,且数量仍在持续增加。早期检测恶意软件与确定恶意软件家族归属,是处理安全事件与降低感染风险的关键因素。
工作准备
使用 MalwareBazaar2 截至 2020 年 10 月 3 日的样本库,共计 103073 个文件。使用 2018 版 EMBER 数据集的训练样本中选择 10 万个文件。
通过 VirusTotal、Hybrid-Analysis、MalwareBazaar 与 URLhaus 获取与这些文件相关的信息。
MalwareBazaar2 中样本的恶意软件归属如下所示:
没有默认提供标签的情况下标记为未知,大约占到 15%。但大多数(55%)样本都是归属于 Heodo/Emotet 与 AgentTesla 的,而 58% 的家族只有不到 6 个样本。
样本都比较“新鲜”,很大比例都是最近的:
约一半的样本文件为 EXE 格式、20% 的样本文件为 Word 文档、15% 的样本文件为压缩文件、0.2% 的安卓可执行文件。
EMBER 数据拥有 1742 个家族,占比最高的家族为 installmonster 与 xtrat。大约 68% 的家族只有不到 6 个样本。
样本也都比较“新鲜”,均为 2018 年后的:
工作评估
样本检出率
检测结果分为几类:
clean:恶意样本判定为非恶意
detected:恶意样本被判定为恶意且有标签
N/A:恶意样本被判定为恶意且没有标签
error:未知错误发生
failure:扫描失败
not_found:未发现该样本相关信息
timeout:返回结果超时
type unsupported:引擎不支持该文件类型
MalwareBazaar 的分布如下所示,大约 62% 的引擎可以将超过一半的样本检出为恶意,大约 25% 的引擎可以将超过 90% 的样本检出为恶意。
EMBER 的分布如下所示,大约 66% 的引擎可以将超过一半的样本检出为恶意,大约 26% 的引擎可以将超过 90% 的样本检出为恶意。
作者对引擎进行了匿名化处理,但表示检出效果最好的是拥有相当市占率的商业产品。值得注意的是,大约 50% 的引擎无法识别三分之一的恶意软件。这表明依赖的防护技术仍然是不足的,特别是考虑到每年数亿的恶意软件数量。
家族检出率
MalwareBazaar 中,有 17/244 个家族的检测率低于 50%、有 80/244 个家族的检测率大于 75%。Emotet 与 AgentTesla 的检出率分别为 62% 与 55%。
如下所示,Phorpiex、Adware.Generic、Adware.ExtenBro 与 Hakbit 家族的标准差非常高,这表明这些家族可变性相当大。而 sLoad、Qealler、STRRAT 与 QNodeService 的最大值与第三四分位相对较低,这表明这些家族的检测逃避能力较强。
EMBER 中,442/1742 个家族的检测率低于 50%。这些家族中大约 86% 的家族,所包含的样本都少于 10 个。有 211/1742 个家族的检出率大于 75%。installmonster 与 xtrat 家族的检出率分别为 70% 与 73%。
分类检出率
为恶意软件的分类建立同义字典:
分类统计如下所示:
0:无法确认类型
1:确认仅有一种类型
2:确认两种关联类型
3:确认三种关联类型
4:确认四种关联类型
5:确认五种及五种以上关联类型
MalwareBazaar 数据中,75% 的情况下可以被归类为两种与两种以上类型。
最常见的类型共现,如下所示:
EMBER 数据中,89% 的情况下可以被归类为两种与两种以上类型。
最常见的类型共现,如下所示:
家族检出率
为恶意软件的家族建立同义字典:
MalwareBazaar 数据中,39% 的情况下检出一个家族,55% 的情况下检出两个及两个以上家族。
最常见的家族共现,如下所示:
EMBER 数据中,9.5% 的情况下检出十个及以上家族。
最常见的家族共现,如下所示:
工作思考
现有的反病毒解决方案,即使达到 90% 的检出率,仍然会导致特别大数量的恶意软件被放过。并且,大多数反病毒解决方案并不能保证进行正确的分类,无论是类型或者是家族。
声明:本文来自威胁棱镜,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。