原文标题:Cyber Threat Intelligence Modeling Based on Heterogeneous Graph Convolutional Network

原文作者:Jun Zhao, Qiben Yan*, Xudong Liu*, Bo Li*, Guangsheng Zuo*

发表会议:23rd International Symposium on Research in Attacks, Intrusions and Defenses

原文链接:https://www.usenix.org/conference/raid2020/presentation/zhao

主题类型:图数据挖掘

笔记作者:ShuiChang

主编:黄诚@安全学术圈

论文工作

提出了一种新的CTI(Cyber Threat Intelligence,网络威胁信息)框架:HINTI,用于建模异构IOC(Indicator of Compromise,威胁指标)之间的相互依赖关系以量化异构IOC的相关性。

论文主要贡献有四点:

  • 基于多细粒度注意力的IOC识别:使用基于字符、1-gram、2-gram、3-gram等多个粒度的组件,将其转换为向量空间,然后使用BiLSTM-CRF进行标注。

  • 异构情报建模:用异构信息网络进行不同IOC的建模,并使用了不同的meta-path捕捉单独IOC的关系。

  • 威胁情报计算框架:提出“威胁情报计算”这种概念,并设计了一个框架。该框架首先利用基于加权学习的节点相似性度量来量化异构IOC之间的相互依赖关系,然后利用基于注意力机制的GCN来嵌入IOC及其交互关系。

  • 威胁情报原型系统:做了一个CTI原型系统,并且进一步使用该系统分析现实中的应用。

论文方法

方法总览

HINTI由四个主要部分组成:

(a)收集与安全相关的数据和提取威胁对象(即IOC);

(b)将IOCs之间的相互依赖关系建模为异构信息网络;

(c)使用基于权值学习的相似性度量将节点嵌入到低维向量空间中;

(d)基于图卷积网络和知识挖掘计算威胁情报。

基于多细粒度注意力的IOC识别

作者提出了一个基于多粒度分句的BiLSTM-CRF的NER模型。

在之后运用“句法依赖解析器”实现提取9种不同的关系,完成提取知识三元组。

异构情报建模

作者设计了9种不同的元路径,分别为:

  • R1: 攻击者使用 漏洞

  • R2: 攻击者入侵 设备

  • R3: 攻击者攻击者协作

  • R4: 漏洞影响 设备

  • R5: 漏洞属于 某种攻击方式

  • R6: 漏洞包含 文件

  • R7: 文件目标 设备

  • R8: 漏洞进化为 漏洞

  • R9: 设备属于 平台

威胁情报计算

基于异构图卷积网络的威胁智能计算概念:给定威胁情报图G = (V, E),元路径集M ={P1, P2,···,Pi},威胁情报计算: i)基于元路径Pi计算IOC之间的相似度,生成相应的邻接矩阵Ai; ii)通过将IOCs的属性信息嵌入到潜在向量空间中来构造节点Xi的特征矩阵; iii)进行图卷积GCN(Ai, Xi),通过遵循元路径Pi来量化IOCs之间的相互依赖关系,并将它们嵌入到低维空间中。

威胁情报计算旨在对 IOC 之间的语义关系进行建模,并基于元路径测量它们的相似性,可用于高级安全知识发现,例如威胁对象分类、威胁类型匹配、威胁演化分析等。直观地说,由最重要的元路径连接的对象往往具有更多的相似性

基于加权学习的节点相似度度量概念:

在这个基础上,作者引入了注意力向量w,用于学习不同的元路径对IOC表征的重要性。

度量整张图的IOC相似度的计算成本太高,故作者通过引入预定义的元路径来规定限制,同时,作者仅仅关注了对称的元路径。在这之后,根据元路径进行交换矩阵(Communiting matrix)的计算。对称元路径可以通过成对随机游走(pairwise random-walk)加速计算。

在上面的工作结束后,即可在元路径P下获得任何两个IOC:hi和hj的相似性嵌入。基于低维的嵌入,可推导出IOC的加权相邻矩阵Ai。同时,每个节点通过word2vec提取属性信息,嵌入到特征矩阵Xi中。利用Ai和Xi,就可使用GCN来表征IOC:hi和hj之间的关系。通过GCN执行图卷积,从而生成节点嵌入。loss函数可以采用交叉熵损失函数。最后采用随机梯度下降进行权重优化。

论文实验

数据集

原始记录为245786份数据,包括73个国际安全博客(如fireeye、cloudflare)、黑客论坛帖子(如Blackhat、Hack5)、安全公告(如Microsoft、Cisco)、CVE描述和ExploitDB。训练所使用的是从5000份数据中抽取出的30000样本,采取BIO标注策略。这些样本被等分为6-2-2的训练-验证-测试集。

IOC识别实验

对序列标注任务,文章的模型表现如下表。

威胁情报计算应用

IOC威胁分析和重要度排序

节点中心程度(Degree centrality,描述了节点有多少连接,多用于计算节点重要程度)被用作重要度排序。

攻击倾向度建模

通过对攻击者的嵌入向量进行DBSCAN聚类来模拟攻击者的偏好。

在攻击建模方面,只注意首尾都为攻击者(attacker)节点的元路径。

漏洞相似度分析

对漏洞节点嵌入进行无监督DBSCAN聚类。有两类的聚类准确度较低,作者解释为这两种漏洞所占总数据的比例太小(cluster8占3.4%,cluster10占4.2%),对于一般聚类表现正常。

使用元路径VDPD^TV^T进行聚类时,所有漏洞被聚到12个集群中,和CVEDetails所推荐的13种类别仅相差1个。

作者团队

  • 赵军,2021年6月毕业于北京航空航天大学计算机软件与理论专业,现为山东师范大学信息科学与工程学院讲师。主要研究方向为深度学习、网络安全、异构图表示学习、网络威胁情报等。

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。