帮助之手：衡量一个大型威胁情报共享社区的影响

关键词：威胁情报、网络安全威胁信息共享

0. 引言

关于威胁情报分析领域一直存在两个问题？第一，大规模合作是否会带来更好的对威胁全局的覆盖？第二，免费提供威胁数据能否提高防御者的行动能力？本篇文章追踪了迄今为止已知的最大的志愿者安全信息共享社区：2019冠状病毒病网络威胁联盟（CTC），它拥有4000多名成员。并通过该案例尝试分析长期存在的关于威胁信息共享的问题。

【发表期刊】：USENIX Security 22

【论文作者】：Xander Bouwman ，他是荷兰代尔夫特理工大学的博士生。研究方向是网络安全威胁信息共享。

1. 背景

研究目的

研究发现，威胁情报提供的数据只覆盖全局威胁（即网络空间威胁，下同）的一小部分。相关工作者在不同的威胁情报来源之间进行了大量比较，但发现少有重叠，即可能主要由单一源提供。这一现象广泛存在于威胁情报的运用场景中，从互联网上免费的黑名单到封闭昂贵的商业源均有出现，它意味着对威胁全局的覆盖不佳。

如何克服这个问题，一个经常被提出的解决方案是更多的数据共享。这通常发生在情报社区或公司之间的正式共享协议中，如网络威胁联盟和反钓鱼工作组，它们通常要求互惠，或“交换条件”，以避免搭便车的行为。这就为访问共享数据创造了一个较高的准入门槛，因为并不是每个人都有足够的贡献来获得访问。从经济角度来看，这种共享机制创造的是企业商品，而非公共可得的产品。

一种潜在的更有效的信息共享形式应当超越这些限制，它对所有贡献者开放，任何人都可以免费访问汇集的数据。在正常情况下，市场盈利措施将阻止这种公共产品的出现，因为产生高质量的威胁情报需要投入资金，公司必须收回他们的投资。然而，2020年的全球新冠疫情大流行使其变为可能，出现了Covid-19网络威胁联盟CTC（the COVID-19 Cyber Threat Coalition）。CTC是一个公益性组织，帮助公司和个人共享关于网络罪犯甚至国家层面的与疫情相关的威胁情报。该联盟的任务是“运营史上最大网络安全专业威胁情报实验室”，并减少现有防御机制在可用性和覆盖范围方面的差距。目前，超过4000个人和组织已经签约，最终产生的黑名单任何人都可以免费访问获得。

论文研究了CTC组织来扩展关于威胁情报共享组织的认知。其主要调查了两个问题：

（1）通过汇集其社区的数据，CTC是否比现有的防御措施提高了covid-19相关威胁的覆盖率？

（2）以免费方式发布威胁数据黑名单是否提高了防御者对威胁采取行动的能力？

为了回答这些问题，本篇文章描述了CTC的组织设置（包括观察社区如何汇集数据和进行质量保证）通过人工样本分类和covid-19相关域的假阴性计算来评估威胁清单，进行纵向测量，以推断谁对CTC黑名单上的域名负责——注册商、浏览器供应商或安全提供商。最后，文章提出了改善开放的大规模数据共享机制的关键经验教训。

研究对象

CTC意在发布一个公开的高质量黑名单，主要聚焦covid-19相关的恶意行为，通过建立一个“专门针对疫情相关网络活动的独立威胁情报平台”以补充现有的防御架构。从2020年3月29日起，黑名单数据发布在CTC的网站上。今年5月，社区报告称，黑名单上有超过6万个不同的IP地址。最初，他们提供了两种类型的名单：一种是经过审查的威胁指示器（IOCs），另一种是由社区提交的未审查的IOC名单。后者最终停止生产，因其无法做到“产生高质量反馈的同时带来尽可能少的误报”。在经过审查的类别中，有四种黑名单文件可用：域名、URL、IP地址和文件哈希值。本篇文章的分析集中在域名列表上。

网络威胁联盟通过Slack进行合作。这个任何人都可以加入的Slack工作区的目的是让安全社区的成员共享信息，并为后续的合作建立必要的联系。在一段时间的帖子讨论之后，更新后的工作区被组织成按主题进行分类，比如，基于相同主题的IOC（例如，网络、电子邮件、恶意软件），或基于相同区域的网络。根据个人填写的所在机构，CTC的成员中包括安全供应商、医疗保健提供商、应急响应组织、金融机构、域名基础设施提供商、主要技术公司和执法机构的代表。

CTC社区结构组织简单：一个“指导委员会”作为社区的管理者，其成员会“牺牲”个人的时间成本进行贡献，领导团队完成各种任务，如审查过程开发、咨询写作和媒体推广。在这个更大的社区中，超过100名“经过审查的志愿者”通过他们的社交媒体档案进行了身份验证，以获得访问私人渠道的权利，这些渠道可以分享更敏感的数据。

2. 结构说明与覆盖率研究

2.1 CTC黑名单创建方式

CTC的黑名单具体有四个来源：

(1)用户在Alienvault OTX上的贡献

社区成员以自由形式发布IOC威胁指示器，首先在一般的Slack板块，不久之后在特定领域的板块（例如，电子邮件和域名），一周后，CTC在AlienVault OTX 上建立了机器处理的威胁情报共享组。用户可以将IOC提交到CTC Slack工作区。在检查是否有恶意后，IOC威胁指示器被公布在“审查”名单上。

(2)通过Slack机器人提交的用户贡献

今年6月，CTC推出了一个Slack机器人，允许用户提供攻击指标以及审查指标。

(3)不确定的供应商的列表

(4)确定的供应商的列表

在用户贡献方面，尽管该社区有超过4000名成员，但其中只有1~2%的人贡献了IOC指示器，其中10个用户贡献了大部分（90%）。大多数用户对CTC的贡献从未通过审查阶段。一开始，很大一部分AlienVault提交进入了CTC黑名单，但在4月12日重新设置黑名单后（见后），添加到CTC黑名单的域名大多来已知或未知企业的行业来源。在论文的整个数据收集期间，黑名单上只有1.23%的域名来自用户在OTX上的贡献。

2.2 CTC黑名单质量保证

社区管理员为提交的攻击指标建立了审查机制，以便提供合理的保证，即我们向公众分享的东西是真正恶意的指示器。最初，审查包括一组志愿者手动验证提交的指标。该工作流最终通过使用集成VirusTotal的安全编排服务实现了自动化：如果一个域名收到了10个或更多的命中数，这将导致它被标记为恶意的并添加到黑名单，一个标记数在4到10之间的域名需要手动审查，而少于4个标记的域名被标记为“良性”并被移除。

然而这也产生了三个问题：

（1）只有被许多VirusTotal扫描引擎识别的恶意指标能被添加到黑名单中。

要求该攻击指标被至少10个扫描器识别，这对攻击传播设置了一个很高的阈值，因而从结果上是对社区贡献的一种否定。

（2）一些提供贡献的来源，特别是一些安全公司的，即便被认为是可靠的，但他们的指标没有出现在通过过审查的黑名单上，因为VirusTotal扫描引擎标记太少，除非管理员人工降低对这些可信源的通过阈值。

（3）第三个问题是如何评估介于“良性”和“恶意”阈值之间的攻击指标。

2.3 CTC黑名单覆盖率评估

在上述研究的基础上，试图对文章提出的第一个研究问题进行回答：通过汇集来自其社区的数据，对covid-19相关威胁的覆盖范围是否比现有的防御措施有所改善？评估过程具体包括以下三个部分：首先，手动标记一个域名，以评估出现在CTC黑名单上的新IOC的性质。其次，跟踪黑名单组成的演变，并衡量其对与covid -19相关滥用行为的关注程度。第三，衡量VirusTotal在审查过程中的作用和影响。第四，通过与外部来源进行比较，估计了covid -19相关域名的覆盖率。

域名的人工分类结果在5天内（2020年5月17-22日），论文研究者每天新添加50个域名到CTC黑名单，并在它们出现在列表上的4小时内访问了它们。

图2.1：500个域在不同时段访问的手动分类结果

本篇文章基于现有的分类，使用了标签分类法。在CTC黑名单的250个域名中，存在5起与COVID-19相关的滥用案例（2%），包括以疫情大流行为主题的钓鱼网站和出售可疑受限材料的网站。CTC黑名单还包括21个（8%）与COVID-19弱相关的互联网滥用例子，如通用钓鱼网站，假冒产品和药品。研究者认为有3个网站是合法的，因此在名单上存在误报率（1%）。与此同时，大部分域名都不可访问（71%）。

当研究者在一周后重新访问这些域名时，发现了一些微小的变化（总体上为4%），其中大部分是以前不可访问的域名，现在可以作为悬停页面访问。研究者也观测到7个与COVID-19无关的仿制药滥用案例（总体为1.5%）在这一周的间隔内开始活跃。

黑名单的组成

按相应的时间间隔进行检索调研后，CTC域名黑名单展现出了以下特点：

（1）域名条目逐步增长，达到了46103个域（2020,6,1），但是域名删除非常罕见。

（2）CTC的目标是追踪与covid-19相关的滥用行为，然而covid-19相关领域的占比一直稳定在1.4%至3.6%之间。

（3）总体来说，通用网络钓鱼的出现频率要高得多（谷歌安全浏览服务和VirusTotal分别将96.8%和85.7%的标记域分类为参与网络钓鱼）。

本篇文章的研究结果与CTC宣称的“分享与COVID-19大流行相关的高质量威胁情报”的目标进行了对比。与covid-19相关域名的较小占比表明，收集的威胁情报超越了针对covid-19的滥用，而是捕捉了疫情大流行期间观察到的任何滥用。这可能是自动提交过程的结果，通用威胁情报源被重定向到CTC，而不是经过策划和有针对性的提取的源头。

VirusTotal扫描引擎对攻击指标审查的影响

本文通过为CTC黑名单上的所有域名每天请求一次VirusTotal来分析VirusTotal扫描引擎对IOC审查的影响：

（1）VirusTotal中，域名被标记超过10次即被视为恶意。在测量期间，符合该标准的域名构成了域名的绝大多数（88.7~97.2%）。2.8%–11.3%的域名其标记数在4到10个之间，这表明它们要么经过了人工审查过程，要么来自可信的情报源，经过了较低的阈值审查。检测次数少于4个的域名的占比可以忽略不计。

（2）在84个VirusTotal扫描引擎中，没有恶意域名被超过27个引擎标记为恶意，只有23个引擎检测到超过5%的问题域名，21个引擎检测到超过5%的含有covid-19关键词的域名。即审查方面，CTC阈值相当高，10个标记意味着一个域名已经被近一半的引擎识别出来，它们贡献了相当可观的检测量。

（3）CTC审查域名机制要求多数的安全扫描器标记该样本恶意，这使得不太可能出现误报。但是，除非这些扫描器成功地适应了与covid-19相关的新型攻击行为，这种严格的阈值会导致许多假阴性。

总结来说，如此高的阈值使得CTC很难在现有反攻击设施的基础上贡献新的威胁情报。

3. CTC威胁情报影响评估

与现有的滥用缓解基础设施相比，免费发布威胁数据是否提高了网络防御者对抗威胁的能力？本篇文章结合不同的数据源来了解哪些参与者、如何以及何时干预来删除黑名单上的域名，并对这些对策进行纵向测量。

防御方的干预分为域名层面的干预和客户端层面的干预。注册商、注册机构和托管提供商属于域名层面的干预，这种方法通过阻止访问域名的方式保护了所有用户，但相对具有攻击性，因为干预不能被规避，因此，它必须被更谨慎地应用。客户端干预本质上只保护那些支持干预的客户，但可能能够对威胁更快和更积极地作出反应。

3.1 域名级的干预措施

一个核心的对策是关闭一个网站。这是由执法机构、目标组织或代表行事的专业品牌保护公司要求的。随后，该删除可以由注册机构、注册商和/或托管提供商在（子）域名级别上实现。本篇文章通过注册中心的“扩展供应协议”（EPP）状态代码来判断网站是否被关闭。具体发现如下：

图3.1：注册商和注册商对CTC黑名单中二级领域的干预措施

（1）域名级干预措施的覆盖范围和实施者取决于顶级域名TLD的类型（见表）。在新的gtld中，干预率最高（56.3%），大多数是由注册机构制定，因为它们必须遵守最严格的要求。与此同时，在传统的gtld（com/net/org）上，干预并不那么普遍（26.0%），而是落到了注册商的头上，因为这一直是他们的责任。最后，cctld的干预措施相对较少（8.3%），这可能是由于它们在制定（滥用）政策方面的独立性。

（2）这些恶意域名出现在CTC列表上是否比防御措施更及时，因为这决定了能否为那些使用黑名单列表的人提供一个实时威胁的预先警告。结果表明，如果干预确实发生了，它通常比CTC快：61.3%的注册商和77.1%的注册商干预在该域名出现在CTC黑名单之前就已经发生了。

（3）CTC的黑名单涵盖了更多的域名。注册商和注册机构在对域名采取行动时可能更加谨慎，而CTC则更广泛地捕获TI。此外，CTC名单还可能包括更多的登记机构和登记机构无法很好地发现和消除的新威胁：68.3%和49.3%的域名分别在注册或注册商干预之前出现在CTC黑名单上，这意味着CTC黑名单也更积极主动，因此在标记COVID-19域名方面更有用。

3.2 客户端的干预措施

客户端解决方案，如域名扫描引擎、防火墙、基于DNS的过滤器和浏览器接口，通过阻止对恶意内容的访问，提供了一个补充性的对策，尽管只针对他们的用户。这些解决方案通常会生成威胁情报来确定一个资源是否应该被视为恶意的。本篇文章主要对基于浏览器和DNS的干预进行了研究分析。

（1）基于浏览器的干预。主要的浏览器根据谷歌安全浏览（GSB）服务检查用户浏览的每个URL，并在知道URL是恶意时报警，因此该功能能够被用来保护大量的用户群。通过使用谷歌安全浏览API来接收检测到的恶意url的哈希值前缀，来判断域名是否被标记。论文发现：

(i)CTC列表能够提供一些补充性的帮助（CTC列表上的28,383个域（60.6%）在某个时间点被标记）

(ii)GSB无法标记的域名往往被VirusTotal引擎检测到的更少，这表明它们的恶意状态不太一致

(iii)GSB在covid-19相关域名上的表现较差。这可能意味着，这些与covid-19相关的域名包含了更多的诈骗和攻击形式，超出了GSB的正常范围。而GSB专注于网络钓鱼、恶意软件和垃圾邮件的传统滥用类别。因此，CTC列表可能会为这些域名提供更大的帮助

（2）基于DNS的干预。Quad9是一个公共DNS解析器，通过响应查询来阻止恶意域名。本篇文章从4月10日至6月21日，每天从Quad9中检索所有被审查域名的DNS记录。在5月6日之前，Quad9的检出率在最低点为30%（covid-19相关域名为70%），但从那时起，Quad9包含了几乎所有的黑名单列表。这表明，CTC的黑名单成功整合了一些安全服务提供商所不知道的威胁情报。

总而言之，就“与现有的缓解攻击行为的基础措施相比，CTC是否提高了防御者应对威胁的能力”这个问题，本篇文章发现，对于CTC黑名单上58.4%的FQDN，现有的域名级或浏览器中的滥用缓解机制在干预时都比CTC更快。对于这些域名，在公开黑名单中汇集和共享数据几乎没有提供什么额外的价值。对于剩下的41.6%的域名，防御人员（如公共和私人组织或管理安全服务提供者）采纳公开的CTC黑名单，相比现有的防御机制，能够提高其保护自己的能力。这一优势在covid-19相关域名方面更加扩大，额外覆盖率为74.9%，再次表明CTC在关注收集covid-19相关攻击的目标时更有效。

4. 总结

网络威胁情报联盟的目标是“打破情报共享的传统障碍，并产生一个广泛的IT安全公众可以依赖的专业质量的威胁源”。本篇文章发现，通过汇集社区的数据，CTC成功地提高了与COVID-19相关的威胁的覆盖率。证据表明，CTC比其他防御策略更快地列出恶意的域名。因此，社区通过在一个免费的黑名单中发布其威胁情报，能够提高网络防御者采取行动的能力。随着时间的推移，CTC失去了准头，它逐渐聚集了大多数偏离主题的攻击信息。本篇文章描述了社区使用VirusTotal进行情报质量的评判，但这一选择也降低了CTC能提供的一些价值，因为它依赖一个数量达到阈值的扫描引擎组来识别一个域名是否为恶意的，在有可能让部分有价值的新攻击指标被遗弃，导致其落后于已有的防御手段。

5. 思考

阅读完本篇文章，我们产生了如下的一些思考：

（1）威胁共享社区在建立和发展的道路中应当关注其持续的提供有价值情报的能力，这主要包括两个方面。其一为能否建立活跃、成分多样、来源不同的社区群体，其二为能否制定合适且相对灵活的IOC审核机制，在高效过滤无效情报和保留相对较新或小众的高质量提交之间达到平衡。

（2）如果是特定主题的威胁情报共享社区，那么在其发展一定时间后，可能会出现通用威胁相关情报挤占情报空间的现象，此时需要一个有效的过滤机制按照一定时间间隔对情报进行清洗，减少无效信息造成的冗余。

END

参考链接：https://www.usenix.org/system/files/sec22summer_bouwman.pdf

编辑|王咏珊

审校|何双泽、金矢

本文为CNTIC编译整理，不代表本公众号观点，转载请保留出处与链接。

声明：本文来自国家网络威胁情报共享开放平台，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

帮助之手：衡量一个大型威胁情报共享社区的影响

我国数据出境合规指引图解

测量恶意软件检测能力

MINER：一种用于REST API模糊测试的混合数据驱动方法