工作来源
ARES 2023
工作背景
Tor 从2004 年开始运营,到2022 年1 月为止已经有超过70 万个 Tor 域名,以近 8Gbps 的速率为250 万用户提供服务。
探测 Tor 服务的情况有几个难点:Tor 服务通常只能用Tor 浏览器或专用客户端通过Tor 网络访问;以公钥的哈希值作为域名非常难记;Tor 网络的路径较长且性能较低;只能通过口口相传或者网页链接发现域名。
Tor 服务不仅提供端到端加密,还提供双向匿名。如下所示:
2018 年2 月,Tor 开始推广第三代 Tor 服务。该代 Tor 服务有56 个字符,包含Tor 服务公钥的 base32 编码、校验和与版本号。此外,还支持同故宫椭圆曲线加密技术将整个公钥嵌入域名中。新版本 Tor 服务还更新的密钥派生方案,从Tor 域名作为服务的标识符转而使用 Tor 域名与特定元数据派生新的公钥。三年后的2021 年10 月,Tor 浏览器在新版本中正式废弃了第二代Tor 服务,全面拥抱第三代Tor 服务。
工作设计
Dizzy 的架构如下所示:
爬取数据
通过 OnionDir 与Torch 获取初始种子,取爬取网页。每一个响应都会对应生成一个原始 HTML 文件及其渲染版本,以及各种元数据(如图片的哈希值)。
分析数据
提取用于分类的特征:
服务一共被分为六类:
使用感知哈希与 PRNU 识别相似的图片与来源相机。另外,将加密货币钱包地址的流入流出行为存入图数据库中。
应用数据
工作准备
2021 年4 月在35 节点的Kubernetes 集群上部署了Dizzy,每个节点32 核+ 64GB 内存。整个集群拥有100 个Tor 客户端、100 个JS 渲染器与 150 个爬虫,可以实现每秒爬取75 个Tor 服务的速度。
训练好的分类器如下所示:
注:Dizzy 仍然尊重Tor 的准则,不爬取需要身份验证等诸多情况的服务。
工作评估
截至 2022 年1 月31 日,Dizzy 爬取并分析了39536 个Tor 服务的63267542 个网页,95.2% 的服务只有不到75 个网页。JavaScript、CSS 与图片哈希的数量分别为3200 万、230 万与150 万,共发现 5720 个加密货币钱包地址。
域名情况
53.6% 的域名严格满足第三代Tor 服务,33.1% 的域名严格满足第二代Tor 服务。如下所示,大多数第三代Tor 服务都是在2021 年6 月以后出现的,也就是Tor 官方表示Tor 浏览器新版本放弃支持第二代Tor 服务的时候。
Dizzy 每天能够发现8.9 个新域名,但服务可用性其实相对较低。
86% 的服务使用Nginx 部署,其次是Apache HTTP Server、Lighttpd、Microsoft-IIS 与各种不知名的服务。由于Tor 提供端到端加密,再使用TLS 其实是多余的,但仍然发现了173 个域名使用156 个TLS 证书进行访问。
网页内容
93% 的服务使用英语作为主要语言,其次是俄语、德语与法语,以及其他四十多种语言。大约 50.6% 的服务是交易市场,其次是色情网站(9.4%)、加密货币服务、搜索引擎、社交媒体等。
61.7% 的Tor 服务被标记为非法,几乎所有的色情网站都是非法的。
48.7% 的图片都是PNG 格式,其次为JPG 与GIF。82.4% 的图片小于64 像素,剩下的图片只有5.7% 带有EXIF 信息。
加密货币
41.4% 的服务提供了325653 个加密货币地址,但前10% 的服务提供了74% 的地址。已使用地址中,9.1% 被标记为恶意地址。
10.2% 的已使用地址收款超过1 万美元,1.6% 的已使用地址收款超过10 万美元。这些钱包423400 笔共计收款2.015 亿美元,146200 笔共计提款1.84 亿美元。
TOP 5 的钱包如下所示:
网络连接
图库中共有3.95 万个节点与74.32 万条边,最大的簇连接40.3% 的节点与44.7% 的边。度(入度+出度)与频度的情况如下所示:
工作思考
有意思的是暗网中也有诈骗,服务声称其分析了加密货币并且发现了漏洞,可以让用户收到比发送的还多的加密货币。诱导用户将加密货币发送到该网站的钱包地址,还列出了部分交易,表示用户可以获利超过 200 倍。
声明:本文来自威胁棱镜,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。