随着大数据越来越多地运用在网络行政执法、网络平台监管、网络安全监测等领域中,业界也需要关注大数据的行为建模。因为没有好的建模,大数据发挥不了任何价值,那么其他问题也就无从说起。以大数据侦查为例,其是大数据与侦查业务的结合,它的建模问题也就有了一些特殊之处。目前,侦查机关的大数据平台已经初具规模,但一些负面问题亦接踵而来。比如,大数据平台的干扰性信息太多,有效信息太少;数据越大,案件越难办;数据越大,效率越低,效果越差。
大数据侦查之所以走向负面,是因为大数据的自然属性制约了侦查的社会功能。首先,大数据具有“海量性”的特点。现阶段的大数据侦查是从海量的“大”数据输出一个“较大”数据,而不是侦查价值集中的“小”数据。其次,大数据有“混杂性”的特点。也就是说,有价值的侦查信息与大量的无关信息混杂在一起,当办案人员无法把有价值的侦查信息从混杂的大数据中提取出来,混杂性变成非常大的“干扰性”。再者,大数据的“相关性”特点也容易给办案人员带来困扰。如果无法把无关的信息剔除出去,大数据的“相关性”就会走向负面,即“无关性”。
从本质上讲,这种负面现象是由大数据与侦查的功能冲突所引起的。众所周知,大数据的最大功能是预测未来。然而,侦查的社会功能并不是预测未来,而是查明过去。鉴于此,曾有人提出,侦查领域从来都没有“大数据侦查”,而是“数据大侦查”,这也是有些道理的。
再者,侦查的社会功能又对大数据提出了新的要求。比如,侦查的时效性要求大数据侦查作为一种手段,必须要达到“又好又快”。如果大数据侦查花费的时间非常大,那么它就有可能被人遗弃。
尤其是,在大数据侦查领域,作为办案人员不关心相关事实,而只关心行为事实。如果大数据平台里的信息无法反映人的行为事实,那都只能成为没有侦查价值的“相关事实”。
比如说,当下就有诸多互联网企业面临着一种新的大数据犯罪形态——刷量,如刷广告、刷注册、刷评价等等。在很多案件中,从数据的相关关系上看,确实存在着“刷量”行为。但是,从司法证明角度而言,由于司法证明要求证据与行为具有因果关系,仅相关性不能成为案件证据。这使得这些新型大数据犯罪在行为证明和定罪量刑方面带来了巨大的挑战。
在视频侦查中,也存在着信息量非常大的问题。视频侦查专家是怎么解决这个问题的呢?他们往往是通过“串联法”和“关联法”让信息形成动态的过程,从而挖掘具有侦查价值的行为信息。显然,不管是视频侦查,还是大数据侦查,它们在方法原理上都是一脉相承的。在侦查活动中,办案人员最关心的是行为的动态过程,而非人与人之间的静态关系。换言之,突破大数据侦查的“瓶颈”,正是要把“静态关系”变成“动态过程”。
那么,如何让大数据侦查达到前述效果呢?这就涉及到建模问题。模型是大数据的生产线。
目前,大数据的主流建模方法主要有两种:数据驱动的建模和需求驱动的建模。所谓的数据驱动的建模,通俗地讲就是我不管你有什么具体的需求,我只告诉你通过大数据分析有什么样的结论,至于这些结论是否满足你现在的需求,另当别论。数据驱动建模的主要功能是用于预测未来,显然侦查中是不会用到数据驱动建模的,反倒是犯罪预防很可能需要使用这种建模方法。至于需求驱动的建模,它的需求就是:告诉我和这个人或者这个手机号有关的信息有哪些,目前侦查系统所谓的“一键搜”就是此例。
但是,“侦查”的需求和“一键搜”的需求,并不是一回事:“一键搜”的需求是明确的,那就是找到与指定人或指定手机号所有相关的信息。而侦查的需求是找到本案的作案人,这是一种抽象而不明确的需求。既然连需求都是不明确的,大数据侦查显然不应该也不可能采取需求建模的方法。可见,在其他领域大数据所经常使用的数据驱动建模和需求驱动建模,在侦查领域都是行不通的。
依据网络法理学的原理,法律与技术相结合,一定要以“行为”为中介。侦查作为法律活动的一种,也同样适用该原理。侦查与技术相结合也需要通过行为中介。通过技术从海量数据里提取出与行为有关的信息,才能得出有效的侦查结论。
大数据侦查领域的建模必须是以行为特征为中介,这是由大数据侦查的本质,即以行为事实而非相关事实为追求目标所决定的。继而,提出行为建模的大数据建模方法也就水到渠成了。在侦查领域的行为建模有两个层次的含义:一种是侦查学模型,它其实就是各种类型案件的“技战法”。侦查学模型往往是被动的,只有等案情需要时,才会使用侦查学模型去“寻找”数据信息,它一般不能达到机器主动侦查的效果。另一种是犯罪学模型,也叫犯罪行为模型,它必须能反映某种类型犯罪的行为特征、行为方式、行为规律。有了犯罪学模型以后,大数据平台才能主动并自动地去运算和匹配,并得出具有侦查价值的“小数据”。显然,从大数据侦查的角度,犯罪学模型比侦查学模型更有利于效率的提高。这是因为犯罪学模型更适宜开发成以主动侦查和自动侦查为特征的“智能侦查”。
当然,犯罪学模型的构建还非常注重行为要素的分解,并且具体的分解方法与案件类型悉悉相关。比如,对公安的以事“找”人案件,它应该更注重行为时间要素和行为空间要素的分解。即,找到在案发时间、案发地点与被害人接触的人。而对于贪污受贿案件,则应更注重行为对象要素和行为结果要素的分解。即,找到官员的非法钱财及相关的行贿人。不论如何,要想从大量看似相关的数据中快速有效地发现具有因果关系的数据,必须从侦查学模型进化到犯罪学模型。
值得注意的是,大数据侦查领域的行为建模人才从来都不是、也不可能像其他大数据领域一样成为被神话了的“算法师”。高手在基层、在民间。这是因为最了解犯罪行为特征和犯罪行为规律的人,一是基层民警,二是部分具有犯罪“智慧”和“潜能”的民间群众。
今天,人工智能并不是指一种技术,而是指一种方法和思维。大数据侦查通过犯罪学行为建模的优化,完全可以升级为主动侦查和智能侦查,并完成到人工智能的进化。鉴于此,可以把这种侦查模式归纳为:基于大数据的人工智能侦查。
(谢君泽,作者系中国人民大学网络犯罪与安全研究中心秘书长,中国人民大学物证技术鉴定中心副主任)
声明:本文来自法治周末,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。