作者:李旭瑞,郑建宾,赵金涛,娄强,刘红宝

来源:中国银联电子支付研究院、风险监控服务中心

一  引言

随着电信诈骗、贪污腐败、非法融资、走私贩毒甚至恐怖活动等犯罪行为的日益猖獗,洗钱已经从一种资金转移手段发展成了一种独立的犯罪行为,对金融机构和国家安全构成越来越严重的威胁。据国际货币基金组织统计,全球每年非法洗钱的数额约占世界GDP的2%至5%,介于6000亿至1.8万亿美元之间,且每年以1000亿美元的数额不断增加。在当前经济全球化、资本流动国际化的情况下,洗钱活动对国家金融体系的安全、对政治经济秩序的危害极大。2003年3月,中国人民银行发布了《金融机构反洗钱规定》、《人民币大额和可疑交易报告管理办法》和《金融机构大额和可疑外汇资金交易报告管理办法》,明确提出了对银行类金融机构的反洗钱监管要求,确立了我国反洗钱报告和反洗钱信息监测制度的基本框架。为履行反洗钱职责,经国务院批准,人民银行于2003年9月成立了反洗钱局,并于2004年4月,组建了中国反洗钱监测分析中心,负责反洗钱情报的接收和分析工作。

中国银联作为国内唯一的银行卡组织,处于银行卡产业的核心和枢纽地位,是实现银行卡系统互联互通的关键,在对洗钱资金进行全链条跟踪监测、完善反洗钱可疑交易协查信息共享机制,提升我国支付行业反洗钱监测工作的有效性上,发挥着重要作用。中国银联根据《银行卡组织和资金清算中心反洗钱和反恐怖融资指引》(银发〔2009〕107号)要求,利用智能风控技术和大数据平台,基于银联跨行交易清算系统(CUPS)建立了反洗钱可疑交易智能化监测分析报送体系,对洗钱和恐怖融资资金跨行转移进行事前、事中、事后全方位的监测。

尽管反洗钱工作已经受到了各方政府和金融机构的高度关注,但由于洗钱手段的的复杂性和多变性,如何有效检测洗钱活动仍然是一个巨大挑战。当前,绝大多数反洗钱系统仍然是基于规则的。这些反洗钱规则虽然能够帮助发现一些异常的洗钱行为,但毕竟大多是根据历史数据总结出来的,过于依赖人工经验,难免疏漏。而且犯罪分子也多多少少掌握了一些反洗钱规则,故意地去规避,这样系统就难以识别了。更加重要的是,当前的洗钱活动往往涉及到团伙犯罪,而反洗钱规则只适用于识别单个账户的洗钱行为,对隐藏在金融交易网络中的洗钱团伙却无法识别。

在这样的背景下,本文提出了一系列针对反洗钱工作的复杂网络以及人工智能创新算法,通过对这些算法进行有效整合,形成一套高效的异常资金转移活动监测方案。本文以银联现有大数据资源为基础,对海量跨行交易数据进行深入挖掘,详实论证了该方案在帮助数据分析人员更加高效监测洗钱行为上的可行性,极大的提高中国银联反洗钱监测分析工作的效率和有效性,从而更好地履行反洗钱的责任。

二  智能化反洗钱整体技术架构

对于根据已知案件进行反查的工作,我们采用大数据关联追溯技术解决方案,而对于主动发现异常洗钱的工作,我们采用异常交易社团发现的解决方案。对于两种方案,一般都需要先使用特定的图计算平台将它们生成特定的网络图。在网络图建立完成之后,再使用各种创新的复杂网络算法来进行案件反查与异常发现。整体技术架构如下图所示。

图1 整体技术架构图

从上图可以发现,我们利用丰富的内、外部数据,依托银联现有的云计算大数据平台对数据处理,对转账、消费、查询等多个事件进行多角度的关联分析。通过结合创新的图计算算法以及可视化交互工具,形成了针对案件追溯反查和异常交易结构主动发现两大类原型工具。其中,针对图计算我们还总结了一套经验型性地解决方案,主要流程如上图右侧所示。即先利用大数据图计算平台GraphX进行相关的图形计算,得到出入度等关键的网络信息,然后着重提取与重点节点有关联的节点信息加载到Neo4j中再进行更为深入的关联分析与可视化交互。

在下面的章节中,我们对上述两大类技术分别进行详细的阐述,并且清楚地展示了使用该套解决方案在实际反洗钱工作中的应用效果。

三  基于大数据关联追溯的智能反洗钱技术

3.1 大数据关联追溯反洗钱系统核心技术

由于每天都涉及几千万笔的交易,数据量巨大,而传统数据库查询需要遍历,所以比较耗时。另外,仅仅得到涉案卡号相关的交易可能遗漏重要的信息,因此有必要进行进一步的深入挖掘更多关联信息,筛选重点可疑账号、核心交易结构以及关键资金路径等,对犯罪团伙进行全方位地打击,并从中总结规律。

针对以上需求,本课题对前期的洗钱关联追溯方案进行了全面升级,主要体现在以下方面:

a)基于大数据平台的关联交易多轮快速追溯

原本的数据库使用的是传统的关系型数据库,速度查询较慢。在改进方案中,我们首先使用大数据工具Hive进行数据库级的关联追溯,取得了一定的效果提升。不过,如若需要深入进行N轮关联追溯,仍然需要N次数据抽取以及N次遍历。在二次改进的方案中,我们引入了SparkSQL的代码级解决方案,只需在程序开始进行1次数据抽取,借助内存计算的力量,后续便可以进行N次遍历,相对Hive大大节省了数据抽取的时间。此外,我们还专门为实时分析场景构建了基于GraphX的模型级追溯平台,借助连通子图算法,构建好标签体系模型,后续只需一次查询便可获得全部关联信息,非常快速。不过这种方案需要对模型进行存储,更适用需要反复查询的应用场景。

b)关键转账枢纽节点发现

社会网络分析(SNA)算法一般可用于分析网络图中各个节点的信息度量。SNA中的部分功能比如小世界网络等不一定适用于反洗钱的需求,不过部分功能可以借鉴,经过移植及修改之后,用于挖掘账号之间关联信息。常用的SNA指标有度中心性、紧密中心性、介数中心度以及特征向量中心性等。

下面将阐述我们是如何使用这些指标来刻画洗钱网络中的节点的。

图2 SNA指标分析示意图

图a中,红色标记的节点是网络中的度中心性最高的账号,表明它在网络中和其他节点的连接是最多的,可能是转账交易中最活跃的节点。图b中两个红色标记的节点能够最好地和网络中其他绝大部分账号成员进行信息传递,具有最大的紧密中心性,很可能是在网络中负责交易中转的节点。图c中,红色标记的节点是左右两部分交易网络中介数最大的一个,所以很可能就是这两个子交易网络之间的桥梁。图d中,红色标记的节点具有最高的特征向量中心性。它与最活跃的几个账号节点都有最直接的联系,因此能够更好地对这些活跃节点产生影响。虽然它与大部分账号节点没有进行直接的联系,但很可能主要负责与一些关键节点进行沟通,让这些关键节点再去与下属洗钱节点进行沟通。

根据实际项目的经验,我们总结了一套SNA指标分析的实战经验:如果我们关注的是交易活动,那么可以采用度数为基础的测度;如果关注对交易的控制,可利用中介中心度;如果分析相对于信息传递的独立性或有效性,可采用紧密中心度;如果想要揪出幕后关键节点,不妨考虑特征向量中心性。

另外,基于以上指标计算衍生出来的链接分析在反洗钱领域具有更加明显的效果,它们原本多是利用图结构计算网页重要性的。在反洗钱项目中可以用来分析重要的个体节点。较为常用的链接分析算法有PageRank、HITS、SALSA、Hilltop等。其中PageRank还有其多种延伸方案。

c)核心交易结构网络发现

使用K-Cores算法实现重点子网络分析技术。这种度量帮助确定在一个网络紧密相连的群体。通过Kruskal等最小生成树算法,能够发现网络图中保持图连通的最少的代表性的边,从而得到最核心的交易结构等。此外,通过一些特定的社团发现算法也能够帮助进行社团划分,划分之后通过上述的SNA指标进行权重得分计算,高得分社团可能涉及核心交易等。这些方法在下文的异常社团发现中重点描述。

d)核心资金流路径分析

在反洗钱过程中,该分析可以用来研究个体、群体之间的联系。例如利用最短路径算法(包括Dijkstra、Floyd-Warshall 、Bellman-Ford、SPFA 和DAG算法等等)来寻找洗钱个体之间最直接的中介等等。还可以采用实现异常路径识别算法:合法的经济体为了正常的业务需要,资金转移一般都会遵循成本最低和时间最短的原则。此外,通过最小生成树等算法能够在一定程度上直接得到重要的核心交易路线。

通过以上方法,再对整个案件中涉及到的转账、取现、查询等多种事件进行结合考虑,就能全局性地掌握案件动向,甚至可以进行一些串并案的关联分析。关联追溯整体的技术框架如下所示:

图3 大数据关联追溯反洗钱技术框架

3.2 基于大数据关联追溯的反洗钱实战分析

利用上述的大数据关联追溯系统在实际的办案过程中已经取得了良好的效果,下面以一起利用盗取的游客卡片信息,制成“克隆卡”进行大规模电信诈骗的非法资金转移活动为例,阐述该套系统的效果。

利用关联追溯的方法,我们首先寻找到了与原始涉案卡号相关的所有转账交易,发现其中大部分2016年7月份是交易最多的,因此我们做了重点调查。7月份的转账交易图如下所示。可以发现该结构中存在一个比较明显的异常结构,以及其他散落的一些账号。

图4 电信诈骗首轮涉案转账交易网络图

从放大的图中可以明显发现以下异常:

  • 17号节点存在明显的集中转入分散转出的异常模式。

  • 节点2和节点6存在明显的大量转出的情况

  • 节点2和节点17同时向同一批账号节点进行了大量转入操作。

基于以上特征,我们初步断定该批账号的确存在异常,但由于涉电信诈骗资金的交易环节复杂、交易层级较多,从转移赃款直至最终清洗完毕可能经过多步复杂过程,在上面的原始交易图中难以发现更多的信息,因此我们以当前交易网络所有节点作为当前种子账号,对关联交易进行了多轮追溯。

下图是第2轮追溯的结果。我们使用过滤器将小额交易的边全部过滤掉,结果如下图所示,发现该异常结构中大额交易非常少。

图5 追溯2轮后过滤小额转账后的交易网络图

直到关联扩展了4轮之后,我们才逐渐发现了较多的大额交易。边越粗表示交易金额越大。

图6 追溯4轮后过滤小额转账后的交易网络图

此外,我们发现了潜在的更大的可疑交易网络。原始的交易网络结构只是这个大型交易网络的冰山一角。这个大型交易网络中也存在着明显的结构化可疑洗钱模式,比原始的交易结构更为复杂,并且先前没有被业务人员发现。这时整个的交易网络图如下所示。

图7 追溯4轮后整体交易网络图及Kcores核心示意图

我们利用Kcores算法可以发现该异常结构中存在多个非常复杂的交易子结构。以上图的Kcores7核心图为例,在该子结构中,每个账号都至少与其他7个账号发生过交易。这是非常可疑的,后续可以针对这个子结构进行进一步深入分析。下面我们还列举了从整个交易网络利用Kcores算法得到的各种可疑洗钱模式结构图。下图仔细分析了一个Kcores核心图的转入转出。从这些图中,我们可以明显的看出,该异常结构竟然分成了明显的3层,每一层之间分别整齐地向其他层的账号进行转入转出,中间那个层不仅是上下两层的资金过渡层,并且三个账号节点之间还互有交易,因此可能是关键的中介节点,介数中心度较高。

图8 转账中介节点示意图

上面仅仅只是一个异常交易结构代表,整个交易网络中存在多个类似的层次化的交易结构,如下图所示,绿色框内的账号表示大量向外层转出资金,而橙色框内的账号代表有大量的资金转入。这种层次化的批量转入转出明显是经过精心设计的。

图9 复杂层次化洗钱示意图

发现了以上层次化的结构之后,接下来要做的就是对那些有大量资金转入但转出很少的账号进行重点排查。为了更清楚地发现资金的最终去向,我们发挥了Neo4j图数据库的作用,结合可视化交互工具,进行了多事件关联分析。如下图所示,我们将一批涉案账号在16年7月1日的多个交易事件在同一张图中进行了显示。其中

→ 蓝色节点代表卡号

→ 绿色节点代表地址

→ 蓝色线条代表两个卡号之间转账

→ 黄色线条代表某卡号在某地址进行查询交易

→ 红色线条代表取现交易

→ 绿色线条代表消费交易

从这张图上我们又发现了以下几点异常:

  • 一批卡号同时在地址1查询,而在另外一个地址2取现。

  • 一批卡号同时在两个不同的地址都发生取现。

  • 该批卡号的转账、查询、取现很多,消费很少,且互相异地

  • 一批卡号互相有转账关系,转完以后在相同地址取现。

通过以上异常点,我们基本可以认定这一批卡号属于同一团伙,并且前期发现的两张卡号向同一批卡号汇入资金的后续资金流向也得到了确认,即这些零散卡号在资金汇入之后,在很短的时间内就进行了跨境取现。

图10 转账、取现、查询多事件关联可视化分析

综上所述,利用大数据关联追溯技术,我们从少量涉案卡号从发现了大量前期未被发现的可疑交易,并且锁定了交易团伙中的关键账号作为突破口。此外,根据以上案件也能够提炼相关规则,作为一种可疑的洗钱模式,后期如若发现类似的交易结构,则可以提早预防,及时截断资金去向。

四  基于异常交易团伙识别的智能反洗钱技术

每天数千万笔的交易量,如何在不依赖已知案件的情况下有效筛选出洗钱风险较高的交易团伙一直是一个难题。对此,本课题从复杂网络的异常交易结构入手,通过对异常交易进行风险量化,从而发现高可疑度的洗钱团伙,为后续集中力量开展洗钱调查打下坚实基础。整体的技术框架如下。

图11 异常交易团伙识别智能反洗钱技术框架

1 异常转账结构发现技术

目前,基于海量转账交易,我们能够主动寻找到一些模式化的的异常资金结构,类举如下:

  • 频繁汇入/汇出

  • 链式交易结构

  • 集中转入/分散转出

  • 分散转入/集中转出

  • 环状交易结构

  • 其他复杂异常交易结构

下图是我们发现到的对应的异常转移结构的一些示例图。

图12 从交易网络中识别出来的部分可疑交易结构示意图

我们主要采用Spark大数据平台进行处理运算。这里的交易图的节点仍然是参与转账的节点,不过由于目的是发现异常洗钱团伙,因此我们对同一对账号之间的交易边进行了融合,交易金额和频次采用累加和作为融合后属性,交易时间采用平均值度量。以上功能使用groupEdges函数即可轻松实现。交易边融合完成后,根据统计得到的频次信息,依照《金融机构大额交易和可疑交易报告管理办法》的相关规定,即可快速定位相关的频繁汇入/汇出异常结构。

对于分散/集中转入/转出这类的异常交易结构,我们主要采用基于阈值过滤的算法。首先我们发现交易图中存在大量转账孤岛(即两账号节点之间仅发生互相转账而与其他账号没有任何转账关系),因此,我们可以事先过滤掉这些转账孤岛,过滤后的节点规模至少缩减一半以上。接着,我们可以根据前期反洗钱经验,设定相应的阈值,将洗钱风险度极小的交易边给删除,例如两账号之间的交易金额小于一定阈值的边全部过滤,这样一来,很多原本非常复杂的交易网络就被缩减甚至拆分。对于中心交易节点来说,一定是入度较小,出度较大。这时,我们只需要设定相应的阈值,比如入度<θ1 && 出度>θ2,而对于分散转入/集中转出的模式则条件正好相反。根据此类条件筛选出可疑的节点,寻找出与这些可疑节点的相关交易,便有可能发现相关的异常洗钱模式。而对于环状交易结构,我们使用了基于Tarjan和Kosaraju算法来寻找环状强连通子图,再结合相应的阈值过滤即可得到相应的异常结构。

然而,根据大量的实战分析,我们发现符合这类条件的账号不在少数,但是真正的洗钱交易往往还存在一些其他的潜在特征。这时,我们就需要再额外地添加约束条件,使得调查范围缩减到可控的范围内。一个常见的约束条件就是中心点折损率(转出金额/转入金额)。一个负责洗钱的中介节点,往往都是起过渡作用,大部分转入的钱都会经过各种手段转出。因此如果上述筛选出来的可疑节点的中心折损率接近1,那么该账号就有很大的洗钱风险。因为犯罪分子总是想在较短的时间内完成洗钱,因此时间约束也是一个常用的约束条件。如果一条线上的上下两笔交易差的时间相差太大,我们则认为该结构的洗钱风险较低,可以过滤掉,这样可以大大精简侦查范围。

2  异常转账结构发现实战分析

以某一天内转账交易为例。在经过一系列的过滤之后,我们设置入度>10 && 0<出度<4,希望这样可以发现分散转入集中转出的异常模式。结果发现符合这样条件的节点超过几千个。但是,当我们增加了0.8<中心点折损率<1.2这个约束条件,可疑节点就缩小到了几十个。下图就是这批可疑账号对应的分散转入集中转出交易。从中我们任意取了一个进行分析,如右图所示,可以明显地发现,该异常结构由17:15 -21:23时间段内的17笔集中转入交易和22:34的1笔50000元整的大额转出交易组成,折损率为0.9802,呈现出典型的先分散转入后集中转出的交易特征,且累计金额50000也非常吻合大额交易限制条件,因此整个交易结构是非常具有洗钱嫌疑的。

图13 基于折损率约束的分散转入集中转出异常交易结构

此外,在连通子图计算完毕的基础之上,我们还专门开发了分布式版本的Tarjan算法进行强连通子图的计算,该算法可以用于寻找环状交易结构。

以某周内的转账交易的分析结果为例,整个环状交易分析流程只耗时不到5分钟,参与环状交易的可疑节点共66091个。我们对这66091个节点在程序中更进一步进行了筛选。筛选条件可以根据业务经验进行调整。例如,在地下钱庄、非法集资、电信诈骗等洗钱案件中,负责资金归集的核心关键账户数量少,但交易金额非常大,而执行资金中转过渡的账户数量较大,但交易金额较小;结构化的集中转入、转出交易多与核心关键账户较近;外围大量交易金额小、频率低的账户,对发现洗钱关键团伙的作用有限。我们限定所属连通子图的复杂中心节点(节点出度或者入度大于50的节点)的个数小于10个,并限制复杂中心节点所属连通子图的总节点个数在50~2000之间。这样筛选完之后,我们的风险节点个数下降到了572个。我们对这些交易加入了时间属性分析,并进行了可视化。最下面的横线从左及右表示时间往后推移,即绿色的边表示最早发生,红色的边表示最后发生,结果如下:

图14 环状转账交易结构的时序可视化

可以明显地发现有5个子交易结构。对于看上去特别复杂,无从下手的结构来说,洗钱的概率反而小,我们需要重点关注的是那些涉案金额较大,并且交易存在一定规律的结构。因此我们对其中最可疑的那个社团进行了分析。从图中可以明显的发现不同时间段的资金流转环,分别以绿、蓝、红色的环状交易呈现出来,是非常可疑的。此外,我们还使用了Kruskal最小生成树算法对此交易结构进行了进一步的分析,得到了最右边图所示的核心资金转移路径,可以发现明显的时序特性,我们后续只需重点调查两个椭圆形圈出来的转出资金流向即可进行资金追溯。

对于一些更加复杂的异常交易,我们没法得知其具体的交易模式,就无法用具体的规则去筛选。但可以肯定这些异常交易一定会相互交错地形成一个较复杂的图结构。于是我们采用基于连通子图和社团发现算法的解决方案,详细技术见下一节所述。

3  基于时序有向社团划分的洗钱风险评级技术

(1)建立金融交易原始权重网络图

选取时间段内的转账交易记录,每个账号作为网络图的节点。如果两个账号之间发生过转账交易,则在这两个账号节点之间构建一条边。根据两节点之间交易次数和金额来设置最原始的边权重,在标准化后给交易金额与次数分配比例。此外,加以适当的阈值参数调节,使得最终保留的连通子图控制在一定范围内,这样我们基本能够从千万笔甚至上亿笔的交易中筛选出一批异常的交易结构。

在实际案例中,当一个犯罪团伙尝试构建一个复杂洗钱交易网的时候,通常会将其核心洗钱结构隐藏在某些看似正常交易中。也就是说,如果直接对某一个连通子图进行分析,很可能看上去这个连通子图的洗钱风险较低。然而,如果我们结合本方案提出的社区发现算法后,每个较大的连通子图又会被细分为若干较小的、但具有较好的反洗钱区分度的目标社团。这样一来,如果一个大连通子图包含有洗钱风险极大的社团或者是多个较高洗钱风险社团的时候,我们就有理由相信该连通子图整体上具有较大的洗钱风险。这样就大大提高了反洗钱算法的辨识度,并且能够给出核心的洗钱风险结构。

(2)基于洗钱风险修正的TD-Louvain社团划分算法

在建立好了交易网络图之后,需要对网络图进行社团划分,以便精准的定位相应的犯罪团伙。目前流行的社团发现算法,大多是针对无权或者无向图进行计算的,更没有时序特性,在洗钱团伙发现时不能直接使用。因此,我们这里研发了基于洗钱模式修正的TD-Louvain时序有向社团发现算法。

基于节点权重修正的边权重优化

原始的基于模块度的Louvain算法主要是依据边权重对社区的影响进行度量,而往往忽略了节点本身所具有的权重,而这在洗钱网络中是不能忽略的。比如说,如果一个账号节点A是一个已知很重要的洗钱节点,另一个节点是一个状态未知的节点B,节点B到节点A之间存在一条转账交易边,该条边对应的转账金额和次数都很小。如果仅仅考虑原始边权重,那么很有可能这条边就被认为不太重要。但是实际上,如果考虑到节点A的特殊性,只要是跟A直接相连的边都应该具有较大的洗钱风险性,例如AB之间的小额交易很有可能就是一次前期试探性交易,如果没有被发现,那么节点A就可能进行后续更多的大额交易。因此,洗钱网络中的每个节点本身所具有的权重会在很大程度上影响社区的划分。这里,我们利用每个节点的金额、交易次数以及出入度总数来计算节点权重修正系数。

我们对每个节点的平均转入和转出时间进行统计。结合节点入度与出度的大小关系和出入边平均交易时间顺序,可以判断该有向边是否存在分散转入后再集中转出的洗钱行为特征,以此来优化边的权重。

基于交易网络有向性优化的模块度

计算好每一条边经修正的权重之后,我们就尝试开始使用Louvain算法来进行社团划分。原始的Louvain算法中没有考虑到边的有向性所导致的信息不对称的问题。在有向图理论中认为,如果存在一对节点i(出度大于入度)和节点j(入度大于出度),那么j→i的边应该比i→j的边更加重要。这一点在反洗钱领域中也是有实际意义的。如下图可以被视为一个转账交易的资金流向图。如果边j→i的基本属性和i→j的完全一样,那么我们有理由认为j→i的边比i→j的边更加重要,因为j→i的边与其他相关的边一起,构成了一个更加结构化的交易关联,例如在这里j→i边很可能是一个分散转入到分散转出的中介通道。

图15 有向性优化的边权重修正

因此,我们可以依据一些方法来计算带方向信息的模块度。定义好模块度之后,就可以使用类似原始Louvain算法的步骤进行迭代。

(3)洗钱社团风险评级

至此,整个基于Spark实现的优化版可疑洗钱社团划分算法已经完全实现。这时候,我们可能会得到数目较多的社团,显然,不是所有的社团都具有较大洗钱风险。如果我们手动去逐个社团进行分析仍然是一件复杂的工作。因此,我们需要根据洗钱风险度的大小将社团进行排序,后期人工主要关注那些洗钱风险度较大的社团即可。

总体来说,如果一个社团中账号的交易量比较异常,或者关系较为复杂,抑或是时间点非常集中,那么这个社团的洗钱风险度就较大。关于交易量和交易关系复杂度的问题,在上面社团划分的过程中已经有过涉及,因此在这里不做重点讨论。在这里主要描述一下交易时间风险度的计算。

时间熵风险度量

我们针对每一个较短时间段内的交易计算时间风险,我们这里采用了时间熵的概念。如果一个社团内的交易时间熵越小,则表示该批交易的时间越集中,确定性越大,也就是说,该批交易很可能是经过洗钱团伙专门谋划的,在确定的时间内完成相关交易。

图16 社团时间熵量化方法

如图所示,以社团中最起始的一笔交易作为起点计算每一笔交易的时间点,我们首先计算出某个社团的平均时间,然后计算该社团内每笔交易时间与平均时间的差的绝对值。

根据差的绝对值的不同将每笔交易划分到相应的区间段中,并最终统计每个区间段的交易笔数占该社团内总交易的比率。这时我们就可以得到每个社团的交易时间熵的计算公式:

社团整体洗钱风险量化计算完每个社团的交易时间熵之后,我们便可以对于社团k的洗钱风险进行度量。最终计算得到的值较大,则说明洗钱风险度较大。这样,我们在后续业务开展的过程中重点关注风险值较大的社团即可,大大提高了工作效率。

团伙洗钱风险评级

当每个社团的洗钱风险被量化为分数之后,我们可以绘制相应的百分位图,然后根据不同的百分位范围给社团划分风险等级。一般来说,我们可以将占比在95~100%, 90~95% 以及80~90% 之间的社团分别标记为风险等级 1, 2 和3,之后所有社团的风险等级为4等等。包含多个高风险社团的连通子图则具有很大的洗钱嫌疑,可移交审查部门进行进一步人工调查。

4  异常交易团伙识别实战分析

我们对2016年某一周内约1千万笔转账交易的计算情况如下所示。首先对转账网络图进行交易孤岛过滤之后只剩下原来的40%左右的交易,在过滤掉小于10元的交易之后,进行边融合。接着使用连通子图算法对网络图进行划分。

表1 子图个数和剩余节点总数随子图规模的变化情况

图17 子图规模阈值过滤条件探索

经过计算和探索,我们将子图节点规模的阈值过滤条件选定为:【10<子图节点规模阈值<2000】

图18 可疑中心节点阈值及复杂社团过滤条件探索

同理,我们在选择可疑中心节点的时候,经过一系列条件过滤 ,剩余下来了包含30718个子节点和135248条边的可疑子图。这个子图中共包含74个连通子图。这74个连通子图,基本上都呈现了一些模式化的异常结构。我们可以先粗略地进行一些时序上的观察。类似下面两个结构,仍然明显地存在着先转入再转出的顺序,符合可能的洗钱逻辑,因此列为异常可疑结构。这相对原先的千万级别的账号规模已经大大缩减了调查范围。

图19 时序异常社团的人工可视化交互分析

然而,上述74个连通子图中仍然存在不少类似于下图这种无法观测出明显的时间顺序上的转入转出特性的交易结构,但我们又不能确定这些异常交易结构是否涉及洗钱。更加重要的是,如果对于更加庞大的转账网络来说,可能筛选出来的连通子图仍然会非常的多,把所有这些连通子图全部进行可视化分析将是非常复杂的任务。因此,我们这里使用TD-Louvain算法来帮助确定洗钱风险最大的异常结构。

我们对其中案例中一个典型的子图来分析 TD-Louvain算法相对于原社团划分算法的优势。下面的箭头表示随着时间的推移,交易边的颜色由黄色逐渐变为蓝色。

图20 TD-Louvain算法的划分结果

上面两图的统计性结果如下表:

表2 原始Louvain和TD-Louvain算法结果对比

对于这个具有343个节点规模的子图来说,TD-Louvain算法相对原先的Louvain算法获得了明显的模块度的提升,表明社团划分结果的效果更佳,并且划分出的社团数要明显减少。图中还可以发现,虽然TD-Louvain算法划分出的社团数减少了,但大多数是对时序和结构上杂乱无章的琐碎社团进行了合并,而对于结构化尤其是时序结构化明显的社团,TD-Louvain算法却会进行更精准地拆分,例如上图中原先的社团A在使用TD-Louvain算法后被拆分成了3个新的小社团a,b,c。根据边的颜色我们可以清楚地发现这三个社团分别在3个不同的时间段进行交易,因此对其进行拆分是有意义的。综上所述,我们依照洗钱模式创新的TD-Louvain算法相对原先的社团划分算法有了明显的效果方面的提升。

下图是对一共537个社团进行风险评分后的结果。我们还在表前文中对社团进行了评级划分。

图21 社团洗钱风险分级评级方法

表3 社团洗钱风险评级划分

我们把每个社团的风险分量化之后的结果从高到低在上图中表示出来。巧合的是,百分位数90%正好对应着风险分数的微分拐点,因此这里百分位90%对应的前45个社团被认为是高风险团伙。即风险评级为1、2等的被列为高危社团。这45个社团被包含在13个连通子图中,后续对下图显示的这13个连通子图进行进一步的调查。

图22 分级后得到的最终13个高可疑洗钱团伙

五  总结与后续工作展望

针对当前反洗钱所面临的困难,本课题借助智能复杂网络算法,构建了一套高效的反洗钱解决方案。利用该方案不仅可以根据相关洗钱涉案信息进行更深层次的挖掘,而且能够主动发现可疑的洗钱结构。通过对这些异常结构进行进一步的洗钱风险量化评分,能够精准定位高风险的洗钱团伙。利用该方案,已经成功协助公安等部门进行了多起洗钱犯罪团伙的侦测及调查。实际的应用效果表明,该方案能够帮助办案人员更加高效地侦测洗钱行为,极大的提高了反洗钱工作的效率,从而更好地履行反洗钱的责任。

此外,近期我们也在不断地完善该反洗钱解决方案,例如结合频繁集项、分类聚类、深度学习等人工智能算法,进一步定位高可疑的洗钱交易模式。通过结合图计算和机器学习算法,能够更加有效地进行链接挖掘和团伙侦测。通过结合更多账号信息,我们还尝试将特殊关系客户名下账号进行合并,比如将统一客户名下的所有账号认为是同一账号节点,直系亲属的账号也认为是同一账号节点等等。这将有助于办案人员更清晰的掌握洗钱动向。

当然,在反洗钱过程中不仅仅需要关注资金流的状况,还要结合其他一些相关特征结构,例如设备指纹、环境信息等等。这样从多角度分析交易行为,有利于更全面地描述账户画像,从而帮助发现资金异常。通过对该方案的主体思想进行推广,可以帮助更多的行业伙伴开展多场景的反洗钱工作,共同打击经济犯罪,保障国家和人民的生命财产安全。

参考文献

[1]   周小川,金融机构反洗钱规定,《金融会计》,2007 (1) :43-45

[2]   中国人民银行反洗钱局,中国反洗钱报告,《中国金融出版社》,2013

[3] J. Mcdowell, G. Novis, P. Analyst,“The consequences of money laundering and financial crime,”Economic Perspectives, vol. 6, pp. 6–8, 2001

[4]  S. Gao, D. Xu, H. Wang and Y. Wang, “Intelligent Anti-Money Laundering System," IEEE International Conference on Service Operations and Logistics, and Informatics, pp. 851-856, 2007

[5]  年珂华,当前形势下反洗钱工作难点综述及建议,《时代金融》,2015 (18)

[6]  戴桂英, 敖国强,论银行卡领域反洗钱难点及对策,《武汉金融》,2007 (10) :44-45

[7] N. Khac and M. Kechadi,“Application of Data Mining for Anti-money Laundering Detection: A Case Study,”IEEE International Conference on Data Mining Workshops, pp. 577-584, 2010

[8]  K. Michalak and J. Korczak,“Graph mining approach to suspicious transaction detection,”Federated Conference on Computer Science and Information Systems, pp. 69-75, 2011

[9]  李婧华,基于数据挖掘技术的反洗钱研究综述,《中国电子商务》,2010 (11) :29-29

[10]  周彩南,刘世芳,李双红,反洗钱监测指标数量准则构建及可疑账户识别方法研究,《西部金融》,2013 (10) :69-75

[11] J. Kingdon,“AI Fights Money Laundering,”IEEE Transactions on Intelligent Systems, pp. 87-89, 2004

[12]  Q. Yang, B. Feng and P. Song,“Study on anti-money laundering service system of online payment based on union-bank mode,”IEEE International Conference on Wireless Communications, Networking and Mobile Computing, pp. 4991-4994, 2007

[13]  罗汉果,基于图的链接发现在反洗钱中的应用研究,华中科技大学学位论文,2007

[14] W. U. Wei-Jiang,“Algorithm of splitting telecom society network based on maximal connected subgraph,” Computer Engineering and Applications, vol. 44, p. 8-11, 2006

[15]   张成虎,李时,基于AI技术的反洗钱系统设计,《中国金融电脑》,2005(3): 44-47

[16]   薛耀文,张艳,具有资金衰减特征的洗钱路径算法及反洗钱应对策略,《系统工程》,2016(4)

[17]   喻炜,王建东,基于交易网络特征向量中心度量的可疑洗钱识别系统,《计算机应用》,2009,29(9): 2581-2585

[18]   P. D. Meo, E. Ferrara, G. Fiumara, and A. Provetti, “Generalized louvain method for community detection in large networks,”IEEE International Conference on Intelligent Systems Design and Applications, vol.79, p. 88-93, 2012

声明:本文来自电子商务电子支付国家工程实验室,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。