可扩展和语义保持的反病毒引擎标签挖掘

安全运营威胁棱镜 2023-11-27

检测引擎标签数据的处理是一门学问，接下来将会接连对相关的内容进行更新介绍，感兴趣的读者不要错过。

工作来源

TrustCom 2022

工作背景

反病毒结果的命名最初遵循 MAEC（Malware Attribute Enumeration and Characterization），为了在高保真情况下对恶意软件属性信息进行结构化表示。但各家厂商的命名逻辑并不相同，所以结果也是不一致的。

只依赖专家知识很难应对威胁时刻变化的挑战，尽量不依赖专家知识才能获得更好的可扩展性。尽管各个厂商的结果并不一致，但其仍然存在内在联系，分解和重组可能会提供样本更多的信息。

常见的归档流水线如下所示：

工作设计

AVClass 系列需要大量的专家知识，AVCLASS 主要将大量标签合并为单个表示家族的标签，AVCLASS2 聚合别名标签。

VirusTotal 上某样本的检测结果如下所示：

Ad-Aware、ALYac 与 Arcabit 都给出了 JS:Trojan.HideLink.A 的检测结果，而 Cyren、DrWeb 与 F-Prot 给出的则是 SEOHide。双方是从不同的角度来对样本进行描述的，并不是互斥的。

三种工具对标签的处理结果如下所示（注：AVMiner 不对相似检测引擎与相同厂商的结果进行过滤）：

常用词的定义如下所示：

系统处理流程如下所示：

典型示例如下所示：

数据准备

为了解决冷启动的问题，使用超过八千个样本来建立语料库。系统不仅能够适应未知种类的恶意软件，而且能够提供更好的兼容性。

预处理

主要是 Token 化与 Token 过滤两部分：

Token 化：通过标点符号分割的为标签的最小单元，替换为统一的分隔符。
Token 过滤：将产生的无意义 Token 过滤掉，例如标识符与序号等。来自同一厂商的标签中无意义的 Token 通常位置一致，并且无意义的 Token 重复频率较低

根据 σ<0.1 由上图可知大多数位置都有一些独特的 Token。下图表示取值在大于 0.3 小于 0.7 时会引入大量无意义的 Token。故而将值设置为 0.3。

向量化

将共现关系作为向量化建模的关键因素，为输出的关键词进行提取和排序。对向量化处理有两个额外的要求：参数不敏感并且计算复杂度低。这样可以在威胁快速变化时，进行自我迭代更新。

选择 GloVe（Global Vectors）作为处理方式，其擅长在全局范围内泛化共现关系。主要过程是首先使用固定的计数窗口对每个 Token 的共现矩阵进行计数，在保证每个 Token 之间的共现关系的情况下对稀疏矩阵进行降维。

样本聚类

总是一起出现的 Token，转换的向量在更高维度上也更接近。故而采用 Mean Shift 作为聚类算法。

根据相关性对 Token 进行分组后，还需要根据它们的频率与簇的属性对其进行排序。在此处进行校正，如下所示校准为 downloader。

如果不进行校准，对 Token 的排名会有较大影响。

两个 Token 之间需要满足以下条件的阈值才进行纠正，不仅可以纠正同义词（downloader 与 downloadre）还能纠正缩写（gen 与 generic），该阈值默认为 0.3。

输出关键词

利用 TF-IDF 算法选择相关且重要的 Token：

当一个 Token 在恶意样本中出现的频率越高，普遍性越低，其 TF-IDF 值也就越高。

工作准备

GloVe 模型的窗口大小设置为 40、向量长度为 32，训练迭代 100 轮。

Mean Shift 算法的带宽为 2，训练迭代 100 轮。

Drebin 与 Malheur 都是手动处理的恶意软件数据集，测试结果如下：

二者的具体文件类型如下所示：

工作评估

利用从 2006 年到 2020 年收集的 10 万个恶意样本，通过 VirusTotal 的结果获取恶意软件家族。结果如下所示：

不管是在第一、前三、前五的 Token 中，都是 AVMiner 表现更好。并且，AVMiner 原型验证每秒可以处理 40 个样本，作者认为其满足了自身的需求。

与之前的 AVCLASS 和 AVCLASS2 进行比较：

可视化变化趋势为：

超集的表现比子集的加权平均更好，引入的相关样本越多，性能也就越好。

这一点也通过实验能够证明，数据集相对较小时的性能略有下降，而数据集达到超集的 30% 时准确率基本稳定。

为了验证鲁棒性，对超集的子集进行了降采样实验，并添加了随机收集的一万个恶意样本。

即使文件类型改变，对结果的影响也不大。

不同时间的样本，也不影响准确性。

工作思考

大量检测引擎的结果处理是一个长久的话题，研究也逐渐成为了近年来的热点。研究涵盖标签翻转、结果合并与检测阈值等，数据量越大越是能从更高的维度进行分析并贴近事实。

声明：本文来自威胁棱镜，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

安全运营

相关资讯

微信公众号