本文为360企业安全反欺诈实验室出品的安全内参特约专栏“金融反欺诈实战”第三篇文章,点可查看该专栏。

第一篇分享中,我们介绍了欺诈交易的一些案例和特点,重点分析了做欺诈交易识别的一些难点,本文是电子银行欺诈交易识别实践系列分享的第三篇,重点讨论整个过程中最核心的部分:如何结合第一篇讲到的案件特点和作案过程提取特征。

在电子银行欺诈交易识别任务中,虽然重点是识别出案件,但是真正的难点在于如何保证案件识别率的同时有效降低误报。由于每天的交易量很大,即使误报率增加0.01%,对后续业务中人工成本的影响也是巨大的,甚至直接影响到模型的可用性。下图为某场景下其中两维特征的散点图,其中紫色代表正常交易,黄色代表欺诈交易,多数反欺诈场景的特征基本都呈现类似的特点。从图中可以将样本点分为三类:

1)A区的正常交易和C区的欺诈交易。占总体的绝大多数,对于这一类交易,往往少数几个特征就能做很好的区分。现有风控系统中基于规则的方法就更多的适用于这一类交易。

2)A 区的欺诈交易和C区的正常交易。这一类就是伪装得特别好的欺诈交易和看似异常的正常交易, 这一类很难区分,过度关注往往会引起模型的过拟合。

3)B区的正常交易和欺诈交易, 该区域的交易才是需要平衡的重点,直接影响着最后的识别率和误报率。提升这部分交易的识别效果,需要从特征提取、样本采样、模型选择等多个方面进行考虑。

某反欺诈场景下其中两维特征

特征的质量决定了识别率的上限和误报率的下限,这也是为什么说特征工程是整个过程中最核心的部分。在定义特征的过程中,我们主要从以下几个方面考虑:

1)特征有利于判断正常交易,尤其是一些看似异常的正常交易,也就是上图中B区的紫色点,从而降低误判率。

2)特征有利于识别出欺诈交易,尤其是一些看似正常的欺诈交易,也就是上图中B区的黄色点,从而提高识别率。

3) 特征的鲁棒性,所谓特征鲁棒性,是指特征不容易随着时间推移改变或者不法分子不容易通过作弊手段绕过。

比如,常用联系人就是一个鲁棒性很强的特征,因为不法分子不太可能通过受害人的常用联系人中转将钱转走,且成为常用联系人需要一些时间。而金额类的一些特征可能鲁棒性就很弱,比如,虽然在已有的案件中观察到不少案件的金额都是499,但将金额或者金额数字里体现出的特点(这里是99结尾或者接近500)当作特征却不一定是好的选择。原因在于这些特征很容易改变,比如购物平台有了新的优惠力度,不法分子选择了新的满足条件的商品等等,都可能让这一类特征直接失效。

4)特征之间的相关性,这里指的是特征含义上存在多大程度的交集,比如下文会讲到的常用联系人和同名交易对象就存在一定程度的包含关系,因为多数同名对象在后续的交易中都会成为常用联系人。那么在定义特征的时候就需要考虑是否需要尽量的排除这种相关性。

5)特征风险,所谓特征风险,是指特征造成模型过拟合的可能性。比如一些范围较大的数值类特征,类似金额类、时间差类。在多次的实验中,模型过拟合严重的情况下,通过分析特征的重要性,发现基本都是这一类特征有较高的权重。

所以在定义过程中,我们遵循的一条基本准则是:尽量用布尔型特征,慎用次数统计类特征,少用数值类特征,且数值类特征基本都要做进一步处理。基于以上考虑,根据交易日志和登录日志信息,我们总结出九大类特征:

1、交易对象

交易对象层面的特征是做欺诈交易识别最重要的一类特征,主要原因在于其他维度的特征不法分子都可以通过各种方式进行作弊伪装,但是交易对象却很难。对于交易对象维度的特征,不法分子逃避的主要方式有两种:一是通过第三方支付或者公司账户将钱转走;二是通过非法获得的个人信息开的账户或者劫持的账户进行中转。但是交易对象维度的特征,如判断是否是常用联系人、同名交易等对于识别大量的正常交易十分有效。

2、资金流向

资金的流向有几种不同的分类方式:

1) 是转入还是转出,进一步拓展,可以统计过去一段时间转入和转出的笔数、比例等等;

2) 转账渠道,是手机转账、网银支付、快捷支付还是通过结算通道。因为不同的渠道,风险往往是不同的。比如,在某银行已知案件中,网银转账和快捷支付占很大比例。进一步,如果是网银支付或者快捷支付,还可以区分具体是什么支付机构或者公司;

3) 资金用途,比如用于个人理财,还是向个人或公共机构转账,有些用途的转账是明显正常的,比如用于购买理财、购买火车票、各种生活缴费等等。

4) 是行内还是行外转账,进一步细分可以区分转向不同的银行,可以和历史上的行内行外转账行为基线作对比。

3、交易时间

交易时间类的特征主要分两类,一是基于当前交易行为,与上一次交易的时间差,最近n笔的时间方差和均值等。这一类特征的逻辑是,不法分子的交易很多都是自动化的操作,所以有可能会在正常人无法完成的时间内完成某些操作,或者操作的间隔存在一定规律,比如稳定的间隔20分钟进行一次固定类型的转账等等。在实际应用中,这一类特征往往需要考虑更多情况,比如在什么情况下需要计算该特征,如果用户前后的交易都在不同的日期,且相隔很大,那么该特征将没有任何意义,相反增加了模型的负担;二是基于历史交易行为,是否在可疑的时间段,是否在常用的时间段,是否是常见的日期等等。这一类特征的逻辑是,不同用户不同的时间段的交易风险是不同的,比如,凌晨三点向一个陌生人转账会比白天向一个陌生人转账更加可疑,某用户每月5号发工资,且当天都会进行转账操作,那么对该用户来说,5号前后的转账就更倾向于正常。

4、交易行为

交易行为类特征最主要的是连续多笔交易的情况,在第一篇文章里有提到,在已有的案件中约有30%都具有短时连续多笔交易的特征,当然,正常的交易中也有量级大的多的连续多笔交易。所以,如何有效的判断一次连续多笔交易事件是正常还是异常,除了结合前文提到的一些特征外,还可以利用这种事件本身所反映的一些差异,比如正常的连续多笔交易往往金额更大,且转账方式多为结算,比如发放薪资,而案件的连续多笔交易金额更小,且多集中分布在少数几个金额附近。

5、终端信息

终端是用户进行转账交易的媒介,而为了逃避追踪,不法分子无一例外的基本都会对终端做一些手脚。比如,通过模拟器冒充设备,更改mac地址,使用云服务器,为了使用脚本批量的对大量手机进行操作而越狱安装特定软件,使用不用实名的虚拟运营商卡号等等。对于这些作弊行为,如果能够检测出来,本身就是一种很强的异常信号,基本就可以对交易进行阻断。但这有一定的技术门槛,比如对于mac地址基本只能判断是否合法,而无法判断是否更改过,而对模拟器的检测,每当有新的检测方法,模拟器也基本很快就能升级绕过。

针对这一类问题,最近几年许多厂商开始提供设备指纹服务,这一类服务能够根据设备的环境信息而不仅仅是设备的关键信息赋予设备一个相对不容易改变的id。但是这也不能从根本上解决问题,主要原因有二:一是设备指纹本身的准确度没有明确的保障;二是为了使交易更加可信,不法分子会使用一些廉价的真实设备。另一方面,银行目前采用设备指纹的仍然在少数。下面举几个特征进行说明:

1)终端型号

除了手机、pad、pc等基本设备类型分类外,设备的型号也可能含有很多有用的信息。比如,为了模仿真实用户,部分不法分子会使用真实手机代替模拟器,但是考虑到成本等因素,一般会选择廉价或者二手的手机设备,所以不同的手机型号,不同的系统版本欺诈交易的可能性会有所不同。

2)新终端引起的信息增益。

计算信息增益的原因在于,同样是在新设备上进行交易,对于一个经常在新设备上交易的人和一个偶尔在新设备上交易的人,风险等级是不一样的。

6、IP和地理位置

交易发生的位置有两种获取方式,一是通过发生交易的支行机构代码,只对某些类型的交易有效;二是通过交易发生时的IP解析出地理位置。这里把IP和地理位置放一起的原因是,IP是获取地理位置的主要手段。提取地理位置相关的特征时,需要考虑动态IP和位置解析精度可能带来的影响。

通过IP解析的地址

地理位置相关的常用特征有:是否是案件集中发生的城市,案件集中发生在某些城市,那么与这些城市相关的交易风险显然更高。是否存在短时跨长距离的现象,比如上午在常用地使用,而下午却在遥远的国外。当前交易的城市是否在历史中出现,当前交易的城市是否是常发生交易的城市,当前的交易对象是否经常到陌生城市,和上一笔交易是否跨城,和当前关联到的登陆信息是否跨城,当前的支付城市是否是开户城市等等。

7、操作行为

操作行为特征主要关注的是当前交易的前续操作行为,例如是否进行过无卡支付签约,背后的逻辑是为了方便第三方支付扣款,不法分子可能会进行某些绑定或者签约操作,而为了选择作案渠道,不法分子也可能会查询卡主与哪些渠道签过约,不法分子的目的较明确,因此不会做过多无用的操作。

是否有主动退出行为也是一个很强的特征,因为正常情况下普通用户完成交易后更多的是直接关闭或者退到后台,而很少会主动退出,而不法分子因为要切换其他的账号,就有可能会选择主动退出。

8、关联图谱

从历史交易中可以构建出多种网络,人-卡、卡-卡、人-人、卡-终端、终端-电话、人-卡-终端等等,从这些网络中可以提取许多有效的特征。比如,转账双方在图中的最短路径,向熟人的熟人转账,在熟人的常用终端上转账,路径都会较短。而向涉案账户、人、终端的关联账户、人、终端转账,路径就会相对较远一些。所以向不同的终端,不同的人转账风险等级是不同的。

用户的网络连接图(来源:Palantir)

另外现有的一些图相关的挖掘算法也能发现一些有用的信息,可以对前文提到的特征覆盖不到的维度做有效的补充。比如在图挖掘中常用的出入度、节点中心性等,比如利用社区挖掘算法,如果发现大量不相关账户在短时间内聚集成簇,或者相邻地域的一批账户在半夜聚集成簇,那就有可能是团伙在作案。

9、其他

比如交易码、交易平台、业务代码、前序交易的返回码、手机号是否是非实名制的虚拟号等等,这类特征会根据各个银行记录信息的不同来提取。

本文在前两篇金融反欺诈实战分享的基础上,对欺诈交易识别中的特征工程做了分类介绍,下一步我们将会介绍特征的选择以及建立初步的模型,以验证特征的有效性。

声明:本文来自360企业安全反欺诈实验室,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。