今天分享的论文主题为对政府网站的测量。该工作由来自华盛顿大学ICTD实验室的研究人员完成,主要聚焦于衡量政府网站的HTTPS部署情况。值得注意的是,本项研究涵盖了位于“长尾”(即流行度排名不高)部分的政府网站,这是已有使用流行域名列表(如Alexa Top 1M、TRANCO Top 1M等)的测量工作无法覆盖的。作者探究了HTTPS部署相关的安全问题,包括各类证书错误等,将政府网站与商业网站进行了对比,并根据结果提供针对性的安全建议。该论文收录于网络测量领域国际顶级学术会议ACM IMC" 20,录用率为24.54%。

论文作者背景介绍:ICTD (Information and Communication Technology for Development) 实验室隶属于华盛顿大学计算机科学与工程系,是一个跨学科小组,致力于探索技术如何改善低收入地区人群的生活。该实验室的研究范围很广,包括人机交互(HCI)、系统、通信和数据分析。大部分研究是与全球卫生部门、 PATH 和红十字会等组织人员合作完成的。从本文的具体研究视角中也可以看出该实验室的鲜明风格和特点。

01【背景与动机】

HTTPS协议是HTTP协议的安全版本,使用TLS保障用户的通信安全。具体来说,HTTPS的重要性体现在以下三个方面:

1. 保密性:通过加密通信内容,确保数据在传输过程中不被第三方嗅探;

2. 数据完整性:通过数字签名和摘要算法,确保数据在传输过程中不被篡改;

3. 身份认证:通过数字证书验证网站身份,保护用户不被钓鱼网站或恶意攻击者欺骗。

图表 1 冰山之下,HTTPS已有测量研究中未被覆盖的“长尾”

作为部署最为广泛的协议之一,HTTPS已经受到诸多安全研究的关注。其中较为代表性的,是由Google研究员发表在USENIX"17的Measuring HTTPS Adoption on the Web[1]该论文研究了排名位于Alexa Top 1 Million的域名的HTTPS部署情况。然而,某些网站的流行度排名虽然不高,例如国家或地方政府网站,但安全性却非常重要。已有依赖于流行域名列表的研究无法覆盖到这类网站。正如图1所示,此类政府网站在测量研究中处于“长尾”范畴,就像冰山下未显露的部分,尚未得到足够的关注与重视。

尽管某些政府网站(特别是来自网络影响力较小的国家的网站)的访问量并不高,但仍承担着保存民众敏感数据的重要责任。已有案例研究显示,公民访问政府网站的目的包括寻找就业机会、了解本地人口统计数据、查询预算、查阅会议记录、了解合同细节及获取民选代表联系信息等等。攻击者可能会对此类网站格外重视,企图破坏关键基础设施、窃取身份信息、侵犯公民权益、操纵政治或降低民众对政府的信任。因此,即使某些政府网站的流行度较低,保障其安全性也是非常重要的。

02【数据收集】

不同于已有研究直接利用流行域名列表展开HTTPS测量,作者需要采取额外的步骤收集政府网站域名,以实现对“长尾”域名的覆盖。为确保数据集具有尽可能高的覆盖率和代表性,论文的数据采集包括以下四步:

‍1. 从流行域名列表中过滤属于政府网站的域名,作为初始的种子数据集。在该阶段,作者从3个Top 1 Million域名列表和Censys数据中使用特定的后缀提取了政府网站数据。其中有几个细节值得关注:

通常情况下,政府网站的域名后缀是".gov.CountryCode"。例如,中国的国家代码是.cn,所以中国政府网站的域名往往采用".gov.cn"的形式。而在美国,政府网站的域名后缀除了可能会直接使用".gov",还可能会使用".mil"或".fed"等等。

网站域名后缀通常会采用当地语言。以法语国家为例,其政府网站域名后缀通常使用".gouv"而不是".gov"。

图表 2 通过流行域名列表列表等筛选种子数据

2. 为了避免数据中部分国家的政府网站过少,作者针对部分政府网站数量不足的国家采取了额外措施。作者使用Amazon Mechanical Turk(MTurk)[2]这一众包平台,对此类国家的政府网站进行征集。众包平台是一种将任务分配给大量互联网用户的方法,MTurk的用户可以根据任务的要求,搜索并提交符合要求的政府网站域名以赚取赏金。通过这一方式,作者成功地对11个政府网站数量小于10的国家收集到了更多的网站数据。

图表 3 通过Amazon Mechanical Turk征集数据

3. 利用网络爬虫扩充数据。作者在原有的域名集合上,使用了具有7层深度的网络爬虫进行深入爬取,期望从原始数据集中发掘出更多政府网站的链接。

图表 4 通过网络爬虫扩充政府网站集合

4. 手动验证。作者对每个国家的种子列表进行了详细审查,对于一些没有被正确过滤的域名,以及流行搜索引擎中出现的明显属于政府的网站进行了手动的补充。通过这一过程,作者构建了一个覆盖62个国家、共计596个政府域名的名单。不过,仍有15个国家的网站数量不足11个。此外,作者还手动添加了那些未使用预期政府域名后缀的国家(德国、格陵兰、丹麦等)的域名。

图表 5 人工收集修正数据

以上述域名列表为基础,作者完成了其HTTPS部署数据的收集,并利用OpenSSL工具、基于Apple Mac OS的Root Store对数字证书进行了验证。值得一提的是,本测量工作得到了伦理审查委员会(IRB)的批准。

03【主要发现】

1. 全球政府网站的HTTPS部署情况普遍较差。在论文分析的全球135,408个政府主机名中,有82,152个(占60.67%)仅支持HTTP,而仅有53,256个(占39.33%)采用HTTPS提供内容。总体来说,即使在乐观统计下,将同时支持HTTP和HTTPS也认定为使用了HTTPS,也仅有38,033个政府域名(占28.08%)正确使用HTTPS。

图表 6 全球范围政府网站的HTTPS部署情况

各国的总体结果以填色地图的形式展示在上图中(颜色越接浅,代表比率约接近1)。在美国范围内,尽管大多数网站实现了对HTTPS的支持,仍有1,841个站点(占18.45%)没有部署HTTPS,另有1,147个站点(占11.49%)同时提供HTTP和HTTPS流量。此外,中国、韩国的HTTPS正确使用率显著地低于其他国家。

2. 作者详细统计了未正确部署HTTPS的错误类型,结果如图表7所示。可以看出,主机名不匹配是导致证书无效的主要原因(占无效证书的36.6%)。这种现象的主要原因可能在于,在部署过程中,管理人员在同一政府的不同主机名之间重复使用通配符证书,且配置往往是错误的。颁发者证书验证出错和自签名证书也是常见的错误。部分政府主机名存在既使用过期证书又证书链中包含自签名证书的情况,但这类情况不到总域名数的1%。在扫描过程中,有12.7%的主机试图协商不受支持的SSL协议(低于SSLv3.0),这意味着服务器可能在运行旧的、未打补丁的SSL软件,将其暴露于POODLE等已知攻击的风险之中。

图表 7 HTTPS部署错误类型及比例

3. 作者分析了政府网站HTTPS部署情况较差的可能原因:作者按照网站是否使用了CDN等第三方托管服务进行划分,发现使用CDN服务的网站,其HTTPS部署的错误率更低,安全性更好。此外,作者还对政府网站和非政府网站的HTTPS部署情况进行了对比,得到了相同的结论。

4. 作者对韩国和美国的政府网站HTTPS部署情况进行了案例分析:尽管两国的“人类发展指数(HDI,联合国开发计划署提出的一种衡量各成员国经济社会发展水平的指标,由预期寿命、教育水平和生活水平三个维度组成,美国排在第15位,排在韩国第22位)[3]”和“网络普及率”相近,但其在政府网站的HTTPS的部署方面仍存在显著差异。韩国的HTTPS有效部署率只有37.95%,而美国则达到了81.12%。作者认为,这与不同国家在PKI体系建设方面的历程相关。韩国曾创建并部署了由国家公钥基础设施(NPKI)认证的CA(证书颁发机构)。由于该CA只受到韩国政府的认可,而不被主流根存储列表接受,最终在2018年被废除。然而,在废除该CA两年后,其子CA仍然在被政府网站用于部署证书。这有可能是韩国政府网站HTTPS有效部署率低的一个重要原因。

作者还讨论了论文测量方法的局限性,主要包括数据集依赖手工处理(难以保证全面)、样本本质上取自Top列表(存在取样偏差)等。此外,测量时间和测量节点的选取也存在局限性。此外,作者对发现的安全问题进行了负责任的披露,向各国家的政府域名注册商发送电子邮件,并收到部分机构的积极回复(包括39 个域名注册商)。

值得一提的是,作者在向相关组织完成安全问题披露的2个月后,又重新进行了扫描,发现政府网站HTTPS正确部署率有所改善(改进约8.3%~18.7%),证明论文的测量分析和安全问题通报起到了重要的作用。最后,作者还给出了一些安全建议,例如制定、落实相关法律法规等等。

04【结论】

整体而言,该论文较为全面地测量和分析了全球政府网站HTTPS部署的状况。为了深入研究政府网站的“长尾”部分,作者采用了一系列方法来收集未被流行域名列表所收录的政府网站。作者详细探讨了政府网站HTTPS部署的诸多安全问题,包括无效证书等,揭示了政府网站HTTPS部署效果不佳的现状。作者分析了HTTPS部署不佳的原因,并完成了对相关组织的安全问题通报,为推动全球政府网站HTTPS安全部署起到了一定的帮助。

原文链接

https://dl.acm.org/doi/10.1145/3419394.3423645

参考文献

[1] Felt A P, Barnes R, King A, et al. Measuring https adoption on the web[J]. 2017.

[2] Amazon Mechanical Turk. (n.d.). Retrieved March 30, 2023, from https://www.mturk.com/.

[3] Nations, U. (2023, January 23). Human development index. Retrieved March 30, 2023, from https://hdr.undp.org/data-center/human-development-index#/indicies/HDI.

李家琛,编辑&审校|张一铭‍‍‍‍‍‍‍‍

声明:本文来自NISL实验室,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。