关键字:后深度学习时代、网络钓鱼、非特征
利用仿冒网站诈骗是最常见的网络骗局之一。欺诈者使用与在市场上运营的其他公司相似网站,外观或声音的相似给消费者带来的潜在混淆,他们试图利用这种策略从毫无戒心的消费者那里获利。避免成为虚假网站的受害者的最佳方法是在投资或汇款之前对其进行研究和打击。随着计算机技术不断发展,深度学习可以解决“知其然不知其所以然”的问题;在给定的数据库下,有了可利用的大数据,在感知信息处理上,深度学习有可能达到人类的水平。在后深度学习时代,AI(人工智能)从狭义智能发展到了通用智能。本文结合后深度学习时代的特点,对证券业网络钓鱼进行浅要的学习和分析,以期能够为业者应对网络欺诈的部分场景带来启发。
本文名为浅议,其主旨是希望能够给业界人员带来更多的思考,因此以下选用了加密货币领域的案例。加密货币是货币还是证券本身就值得单独讨论,其答案在业界尚未有统一的定论且监管机构的观点也在日新月异,例如: 2014年美国国税局的一项裁决,确定加密货币应被视为资本资产(如股票或债券),而不是货币;继此,美国证券交易委员会认为大多数ICO是证券,但比特币和以太坊是货币;日本证券业协会和日本金融厅拟将虚拟货币划分为金融商品,受金融商品交易法约束;新加坡将虚拟货币区分为功能型代币和证券型代币;泰国将数字资产定义为货币和证券双重属性;香港金融管理局将加密货币定义为“虚拟商品”,而不是法定货币(官方认可的货币)。
这里有一个典型的投资与仿冒网站结合的骗局。据报道:
一名加利福尼亚人加入了一个 WhatsApp 群组,在那里他们了解了一个名为 tnegcoin[.]com 的加密平台。在 WhatsApp 群组中,一个自称“教授”的人向群组成员发出了加密货币交易买入/卖出的“信号”,让他们在 tnegcoin[.]com 上交易加密货币。该小组的其他成员分享说,他们从“教授“的交易建议中赚了一大笔钱,并将大笔款项提取到他们的银行账户中。在阅读了该群组上的信息数周后,受害者联系了”教授“在 tnegcoin[.]com 上开设了一个帐户。”教授“的助理“Eleena”帮助受害者设置账户,受害者根据教授的信号开始交易。随着时间的推移,受害者的账户余额似乎增长到超过 150 万美元。然而,当受害者试图从他们的账户中提取部分资金时,他们被告知他们必须首先向”教授“支付 60,000 美元的佣金。受害者试图使用他们账户中的交易收益支付佣金,但被告知他们必须将佣金单独发送到”教授“的加密钱包。受害者服从了并将钱寄给了”教授“。之后,受害者试图提取他们的钱,但被说服在网站上再进行一次交易。最后一笔交易导致受害者的整个账户余额损失。然后,”教授“提议 WhatsApp 群组的成员为一个联名交易账户做出贡献,以便”教授“可以自己为该群组进行交易。受害者向”教授“的加密钱包额外发送了 50,000 美元,为联名账户注资。在”教授“和 Eleena 报告联名账户赚取巨额利润后,受害者要求提款。然后,”教授“和 Eleena 从 WhatsApp 上消失了。总而言之,受害者在这个网站上损失了近 200,000 美元的退休储蓄。(注:tnegcoin[.]com 网站已停止运行)
在后深度学习时代,虽然像 OpenAI 这样的工具已经限制其聊天机器人用于恶意领域,但网络犯罪分子仍然可以通过创建自己的恶意生成式AI(例如:WormGPT 和 FraudGPT)来做出同样的回应。欺诈者可以使用 AI 技术克隆声音、更改图像,甚至制作虚假视频来传播虚假投资信息。AI 技术可能被用来冒充家人或朋友,模仿公司首席执行官宣布虚假新闻,或制作看起来逼真的网站或营销材料来宣传虚假投资。在新闻报道中,经常可以看到欺诈者冒充监管机构工作人员和其他政府官员。例如:根据ASIC(澳大利亚的企业、市场和金融服务监管机构)报道,投资诈骗在 2023 年给澳大利亚人造成约 13 亿澳元的损失,是影响澳大利亚的主要骗局类型。为了保护澳大利亚人的利益,ASIC 将可疑网站转介给专门从事网络犯罪检测和破坏的第三方公司。下图为2023年7月至2024年7月ASIC统计的下架数据:
虽然在后深度学习时代,欺诈者可以利用AI增强技术提高欺诈能力,然而受攻击者仍然可以通过蛛丝马迹进行识别,例如:不寻常的语言模式,其特征是奇怪句子结构、奇怪的措辞或语法错误;通用内容,典型的例子是可能会使用“尊敬的客户”等占位符,而不是按姓名称呼;不切实际的要求或承诺;不准确的信息;异常发件人信息;缺乏情境感知;过于正式或生硬的语气;可疑的主题行;渲染不佳的视觉元素,等等。然而,随着欺诈者利用AI的能力提升,新的趋势已经开始呈现:
1. AI 可以生成复制现有网站和徽标的图像,并且一直在改进;
2. AI 生成的文本拼写错误和语法错误明显降低,使得仿冒消息更有说服力;
3. AI 可以帮助犯罪分子在毫秒级制作出独特的内容,使其更难被识别为网络钓鱼。
面对以上的趋势,专业钓鱼欺诈防范机构则可以采取更多的技术方案去发现、判别仿冒网站,并完成下架任务。完整的识别技术由更多细分AI技术实现,以下介绍一种基于规范化压缩距离(NCD)方法的非特征检测钓鱼仿冒网站的技术。
NCD是一种无参数距离度量技术,常用于近似度量所有成对对象主导特征的相似性。NCD的目标包括:汉明距离、欧几里得距离和编辑距离等。由于网络钓鱼的动态性,一旦攻击行为发生变化,依赖于特定和静态特征集的检测系统可能无法检测到网络钓鱼。虽然网络钓鱼和合法网站之间存在一些细微的差异,但攻击者必须将网络钓鱼页面设计得与合法页面相似,以说服用户相信该网站是合法的。基于这一假设,可以通过计算可疑网站和合法网站之间的NCD来进行网络钓鱼网站检测,NCD值低于一定阈值表明该网站确实在模仿合法网站,因此将其归类为网络钓鱼网站。然而,网络钓鱼网站不一定与目标网站相同,研究发现网络钓鱼网站通常是从某个模板或工具包开发的,这增加了来自新网络钓鱼网站的类似HTML内容的可能性,并使得通过对网站HTML数据集之间进行两两NCD计算可以测量网站相似度并检测钓鱼网站。
使用NCD度量来度量两个网站之间的相似性,首先通过聚类将具有相似HTML内容的钓鱼网站划分为多个组,并将网站分类到已经生成的具有最接近相似性的组中。目标的特征对于检测的准确性和可持续性很重要,由于NCD是基于非特征的,这意味着它将直接从数据中学习,而不需要手动特征提取。非特征方法的优点是系统可以适应网络钓鱼行为或数据表示的变化。辅之以增量学习,随着时间的推移,系统将能够在遇到新的网络钓鱼示例时改进其检测能力。
利用累计的情报库使得NCD可以采用基于原型的聚类方法,聚类由数据集中的实际样本而不是质心来表示。使用实际的网站样本作为聚类表示,为实现增量的非特征学习方法提供了基础,因为基于原型的方法可以不依赖将数据转换为特定的特征表示。例如:使用贪婪聚类算法,n个数据样本的总时间复杂度为O(n2),而使用基于原型的方法,其总时间复杂度仅为O(nk),其中k为聚类的数量。这组对比数据也说明了基于原型的方法更加快速、高效。
根据定义,原型是一个数据点,它代表集群中的所有数据点。给定集群中的每个数据点都可以分配给特定的原型,其中从该原型到数据实例的距离小于某个阈值距离d。方法中的每个原型将是一个或几个网络钓鱼网站,它们代表类似网络钓鱼网站的集群,可能使用相同的模板或网络钓鱼工具包生成。在判别中,并不关需要关注一个数据集属于哪个集群或类别的网络钓鱼网站,而是检测其是否会被归类为网络钓鱼类之一,或者它是否与任何类都不相似。归属集群的工作将利用其他技术进行判别。原型法参见下图:
上图中,大约60个数据实例被分组在三个类中,这些类使用五个原型表示。在某些情况下,一个集群也可以由多个原型来表示,例如上图中左下角和右下角的集群。新的数据样本可能靠近两个或更多原型,或者位于原型决策边界相互重叠的区域。研究为了简单起见,将这些数据样本分配给最接近的原型(即具有最小NCD)。该方法的概要实现的思路如下:
1. 提取原型:取有代表性的原型是该方法的一项重要任务。其方法是选择一个数据实例作为原型,将所有数据分配给最近的原型,然后选择离当前原型最远的下一个实例作为下一个原型;重复此过程,直到将所有数据分配给NCD值小于dthreshold的原型。通过运行该算法进行原型提取后,将得到一组代表网络钓鱼数据的原型;
2. 增量学习:对于连续的网络钓鱼网站检测,在每次迭代中执行基于NCD的分类,并在每次迭代中使用从属于新数据的错误分类的网络钓鱼样本中提取的新原型来更新原型集;
3. 分类:通过计算目标网站(x)和每个钓鱼网站原型(y)之间的NCD来检查是否存在一个原型,使得NCD值小于某个最大距离值或NCD(x,y) < dthreshold。
需要注意的是在进行原型提取时,需要指定最大距离阈值来定义每个原型覆盖的大小,它会影响到聚类的大小和分类的性能。好的聚类阈值的共同和直观的特征是它会产生紧凑或密集的聚类,且这些聚类彼此之间距离较远。下式给出了一个聚类质量度量指标(ICQ):
小结:在后深度学习时代,AI使得网络钓鱼对抗赛升级到空前的数量、速度、隐藏与发现的新难度。虽然面向传统证券行业和新兴证券行业的反欺诈具有巨大的挑战,合法运营者可以使用“魔法”对抗“魔法”,利用AI能力持续的对网络钓鱼行为进行监测和处置,提高欺诈者的犯罪成本和被揭开真面目的风险,必将能够把证券整体行业的风险降低到一定程度。
参考资料或推荐阅读:
1. https://dfpi.ca.gov
2. https://www.gate.io
3. 《全球加密货币税务法规》
4. https://disb.dc.gov
5. 《人工智能的未来展望-后深度学习时代》,中国计算机学会
6. 《人工智能进入后深度学习时代》,智能科学与技术学报
7. https://asic.gov.au
8. 《Phishing Detection Techniques in the Age of Generative AI》,University of British Columbia
9. https://cgnet.com
10. 《PhishSim: Aiding Phishing Website Detection with a Feature-Free Tool》
声明:本文来自数字安全的理会践行,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。