工作来源

ARES 2023

工作背景

Tor 从2004 年开始运营,到2022 年1 月为止已经有超过70 万个 Tor 域名,以近 8Gbps 的速率为250 万用户提供服务。

探测 Tor 服务的情况有几个难点:Tor 服务通常只能用Tor 浏览器或专用客户端通过Tor 网络访问;以公钥的哈希值作为域名非常难记;Tor 网络的路径较长且性能较低;只能通过口口相传或者网页链接发现域名。

Tor 服务不仅提供端到端加密,还提供双向匿名。如下所示:

2018 年2 月,Tor 开始推广第三代 Tor 服务。该代 Tor 服务有56 个字符,包含Tor 服务公钥的 base32 编码、校验和与版本号。此外,还支持同故宫椭圆曲线加密技术将整个公钥嵌入域名中。新版本 Tor 服务还更新的密钥派生方案,从Tor 域名作为服务的标识符转而使用 Tor 域名与特定元数据派生新的公钥。三年后的2021 年10 月,Tor 浏览器在新版本中正式废弃了第二代Tor 服务,全面拥抱第三代Tor 服务。

工作设计

Dizzy 的架构如下所示:

爬取数据

通过 OnionDir 与Torch 获取初始种子,取爬取网页。每一个响应都会对应生成一个原始 HTML 文件及其渲染版本,以及各种元数据(如图片的哈希值)。

分析数据

提取用于分类的特征:

服务一共被分为六类:

使用感知哈希与 PRNU 识别相似的图片与来源相机。另外,将加密货币钱包地址的流入流出行为存入图数据库中。

应用数据

工作准备

2021 年4 月在35 节点的Kubernetes 集群上部署了Dizzy,每个节点32 核+ 64GB 内存。整个集群拥有100 个Tor 客户端、100 个JS 渲染器与 150 个爬虫,可以实现每秒爬取75 个Tor 服务的速度。

训练好的分类器如下所示:

注:Dizzy 仍然尊重Tor 的准则,不爬取需要身份验证等诸多情况的服务。

工作评估

截至 2022 年1 月31 日,Dizzy 爬取并分析了39536 个Tor 服务的63267542 个网页,95.2% 的服务只有不到75 个网页。JavaScript、CSS 与图片哈希的数量分别为3200 万、230 万与150 万,共发现 5720 个加密货币钱包地址。

域名情况

53.6% 的域名严格满足第三代Tor 服务,33.1% 的域名严格满足第二代Tor 服务。如下所示,大多数第三代Tor 服务都是在2021 年6 月以后出现的,也就是Tor 官方表示Tor 浏览器新版本放弃支持第二代Tor 服务的时候。

Dizzy 每天能够发现8.9 个新域名,但服务可用性其实相对较低。

86% 的服务使用Nginx 部署,其次是Apache HTTP Server、Lighttpd、Microsoft-IIS 与各种不知名的服务。由于Tor 提供端到端加密,再使用TLS 其实是多余的,但仍然发现了173 个域名使用156 个TLS 证书进行访问。

网页内容

93% 的服务使用英语作为主要语言,其次是俄语、德语与法语,以及其他四十多种语言。大约 50.6% 的服务是交易市场,其次是色情网站(9.4%)、加密货币服务、搜索引擎、社交媒体等。

61.7% 的Tor 服务被标记为非法,几乎所有的色情网站都是非法的。

48.7% 的图片都是PNG 格式,其次为JPG 与GIF。82.4% 的图片小于64 像素,剩下的图片只有5.7% 带有EXIF 信息。

加密货币

41.4% 的服务提供了325653 个加密货币地址,但前10% 的服务提供了74% 的地址。已使用地址中,9.1% 被标记为恶意地址。

10.2% 的已使用地址收款超过1 万美元,1.6% 的已使用地址收款超过10 万美元。这些钱包423400 笔共计收款2.015 亿美元,146200 笔共计提款1.84 亿美元。

TOP 5 的钱包如下所示:

网络连接

图库中共有3.95 万个节点与74.32 万条边,最大的簇连接40.3% 的节点与44.7% 的边。度(入度+出度)与频度的情况如下所示:

工作思考

有意思的是暗网中也有诈骗,服务声称其分析了加密货币并且发现了漏洞,可以让用户收到比发送的还多的加密货币。诱导用户将加密货币发送到该网站的钱包地址,还列出了部分交易,表示用户可以获利超过 200 倍。

声明:本文来自威胁棱镜,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。