引言
当前,侦查领域内的大数据理论研究和实践应用日益深广,这无疑是对时代变革的积极回应。不过,从整体上说,在实践方面,侦查工作仍处于小数据或通常所说的信息化层面,实践中的一些数据库集成建设以及算法应用、分析工具的设计等方面在本质上也仍是小数据侦查的模式,少量、零星的建设成果并未形成规模化应用,仍处于探索阶段。而在理论研究方面,在何为大数据侦查、大数据侦查与信息化侦查的差别是什么、大数据侦查的实现条件有哪些等基本问题还非常模糊的情况下,热闹而随意地使用大数据这一时代标签反而容易模糊了对大数据侦查的认识,例如,大量以“大数据背景下的XX案件侦查”、“大数据时代背景下的XX侦查工作”等为题的研究所谈论的仍不过是信息化侦查。因此,要真正推动大数据侦查的实现,首当其冲的是深刻理解大数据的本质,尤其是大数据与小数据区别,在此基础上看清通往大数据侦查的道路。
大数据中的数据特质
对于大数据,引用最多的概念表述是:大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。笔者认为,这一表述并无助于人们真正理解大数据。一方面,否定形式的概念表述本身是不规范、不严谨的,概念应当告诉我们A是什么,而不能是说A不是B,也不是C;另一方面,数据库的大小是相对的,这样的定义没有划分出——至少是没有在基本层面上划分出大数据与小数据的界限。笔者认为,应当在大数据的定义中清晰地表达出大数据的特质,以此将其与小数据区别开来,以便在基本范畴的层面勾勒出大数据侦查的实现框架。为此,大数据可以界定为:全方位、动态化地反映各类社会活动,有助于对特定事物发展演变或行为方式进行全采样挖掘分析的异构数据集成。根据这一定义,相比小数据,大数据中的数据特质具有如下特质:
(一)大数据中的数据具有齐全性的特质
数据社会化、一切社会活动皆可数据化是大数据的重要特征或标志。数据是对人类生活和客观世界的测量和记录。过去是我们选择什么东西需要记录,才对它进行记录;在大数据时代,是选择什么东西不需要记录,才取消对它的记录。随着记录范围的不断扩大,可以肯定,人类的数据总量还将呈滚雪球式扩大。[[i]]基于数据的齐全性,对大数据的分析挖掘也突破了传统随机采样统计的局限性,而发展成为一种全采样分析,分析结果的精确性、丰富性和容错性将因而大大提升。
(二)大数据中的数据具有动态性的特质
大数据的动态性,是指数据实时生成、主动反馈,甚至自动滚动。一方面,数据不仅能从静态、孤立的片段连贯成为轨迹线,还能形成轨迹线集群,将出现断点的蛙跳轨迹关联起来,形成轨迹线交叠、编织的活动面;另一方面,数据不再仅仅是被查询和比对的对象,还成为运算的一部分——借助于机器学习的数据挖掘技术,让数据库根据挖掘、计算的次数增多而自行调整计算参数,让数据“活起来”,以此促进预测功能的实现,弥补侦查滞后性的短板。
(三)大数据中的数据具有异构性的特质
数据异构性,是指大数据中的数据具有多结构性,不仅包括传统信息化中的结构化数据,更有大量的非结构化数据。例如,有关特定个人的数据,既有个人档案数据、资产和银行账户数据、电子商务购物数据等结构化的数据,也有反映其人身形象和行为过程的图像、影像数据、个人病例数据、网上日志数据等非结构化的数据,乃至非电子化的社交数据、情绪化数据、习性数据等。随着大数据的发展,非结构化数据将越来越多且蕴含更丰富的侦查价值,[1]但是,目前由于缺乏对非结构化数据的分析技术,绝大部分非结构化数据未在侦查领域得到应用 或应用不充分。
大数据侦查与小数据侦查的比较
从上述三个数据特质及其分析应用出发,可以梳理出大数据侦查与小数据侦查(即信息化侦查)之间的差别。
(一)数据特质上的差别
总体上说,信息化侦查中数据的齐全性、动态性、异构性程度要低于大数据侦查。信息化侦查中所用的数据主体是公安机关日常工作中采集形成的数据,如手机话单、旅馆住宿信息、暂住登记信息、车辆信息、网络登录地址信息和登录电脑MAC地址等;此外,还有银行、民航、交通运输等行业数据。这些数据大多为结构化、标准化的数据,反映的也只是特定类型的社会生活或特定个人社会活动的某一方面,对于其他类型的社会活动、各类社会成员的日常行为数据,如非电子化的社交数据和习性数据、非结构化的社交媒体上的信息数据等尚未得到规模化的应用;此外,对于视频信息,也整体处于针对特定时空的视频信息进行经验性的、画面内容上的观察和分析。要实现小数据到大数据的飞跃,丰富数据来源、扩大数据覆盖面和增强数据的异构性,特别是发展对非结构化数据的采集、存储和分析处理能力是必须重点解决的问题。
(二)数据规模上的差别
由“条块分割、以块为主”的侦查体制和各警种、各职能部门分工负责所决定的,当前信息化侦查的数据库基本都是各个主题的业务信息数据库及单独的分析搜索系统,并以特定的网络化操作平台进行贯穿关联,尚未形成规模化的数据库集成。如果不能将所有数据的挖掘、分析工作“平滑地集成到统一数据处理中心,现有的各个实战应用搜索系统都紧密耦合成为一个无缝的统一构架”,数据的应用处理仍只能是处于小数据的信息化阶段而不能飞跃到大数据时代。由此也可以看出,大数据侦查不仅需要技术上的支持和突破,也将对现行侦查工作体制形成较大的冲击。
(三)数据处理能力和应用方式上的差别
当前的信息化侦查主要是借助计算机和网络技术提高了信息查询、搜索、比对的速度和准确性。例如,在一篇以大数据警务为题的媒体报道中,对一起街头扒窃案件的侦查过程是:提取现场监控视频获悉了犯罪嫌疑人体貌特征——查询报案系统后发现在现场周边的菜市场有类似发案——多起案件现场视频中犯罪嫌疑人体貌特征相同且乘坐出租车逃离现场——通过出租车行驶轨迹查明犯罪嫌疑人的居住地点。尽管速度、准确性和范围的广阔性本身也能够使工作方式发生质的飞跃,信息化手段的应用无疑提高了侦查效率,但是,显而易见的是,这并不是大数据侦查,至少不是典型的、成熟意义的大数据侦查。在当前的信息化侦查过程中,主观层面的经验、逻辑分析以及由此提出的侦查假设的准确性是成功破案的前提,数据信息的精确性是查获犯罪嫌疑人的关键;而海量数据信息之间非逻辑性的相关性、数据规模形成的容错性才是大数据的神髓。
当然,笔者并不是认为传统的侦查思维不好或应当被摒弃,也不是要否定当前侦查信息化的工作方式及其成果,而是想要说明当前的信息化侦查与大数据侦查之间的差别——尽管即便在大数据侦查中,这些方法也是非常重要和主要的,但是,如果将它们混同于大数据侦查,将会让我们被已经取得的成果蒙蔽双眼,看不到前进的方向。
大数据侦查的实现
梳理信息化侦查与大数据侦查之间的差别,是为了发现差距、明确方向和路径,正确地推动大数据侦查得以实现。
(一)建设数据库集成
建设数据库集成,首先面临的是技术和资源的瓶颈。
一方面,在数据生成、记录的全面性方面,数据信息的来源还远远不够广阔。“如何才能实现汇聚?一般来说,主要途径就是构建更加快速稳定的网络基础设施,尤其是推动宽带城市、无线城市建设,特别是要按照物联城市的理念,给建筑物、道路、车辆、工厂、电网甚至是家居设备装上传感器、定位仪,让一些都联结起来、记录下来、计算开来。” 显然,要做到这一点,技术支持和资源投入还有相当大的缺口。
另一方面,在共享和应用方面,平台建设不能仍然沿用小数据时代的各自为战的方式,而需要建成具有相应处理能力的存储、管理平台。Facebook、百度、腾讯等商业平台是以数据公共平台形成数据汇集和处理的典范;在公安工作领域,各地公安机关也投入了大量资源和技术创建数据平台,例如,北京建成了汇集200多类公安内部和社会信息资源、能够实现“一键关联、自动比对”的检索、研判功能的“情报信息智能检索系统”;广西建成了公安“云计算”中心,承载各警种业务系统47个,实现全区全级公安业务系统互联、互通、互控的大联网、大共享、大应用格局。在对这些探索实践及其成果热烈鼓掌和给予期待的同时,也应当反思一下:由于未能从根本上跳出以块为主和职能分立的局限,这些以各省、市、地区自主、独立建设的数据库集成或半数据库集成是否仍然可能像信息化过程中信息系统的建设一样,因为各自为政、各自为战而形成数据阻隔、共享困难?
因此,建设数据库集成还需要解决第二个——也许是更难解决的问题——侦查体制的问题。在无法改变条块划分、职能分立体制的背景下,应当制定专门的公安数据管理法律、法规,以细化和强化数据管理制度减少数据封闭现象。例如,在商业领域,突破数据封闭的途径之一是借助市场的力量,使数据成为可交易的商品,开展数据交易,以形成汇聚的态势和创新引导。公安领域内数据的特殊性当然不能市场化——或者说不能实行一般意义上的市场化。但数据市场化却可以在制定数据管理和共享法律规范时给予我们一些启示。
(二)开发数据挖掘工具
大数据侦查中的数据内涵极大地拓展,不仅包括传统的数字,还包括文字、图片甚至音频、视频等,因此,数据算法也必将更为多样化和复杂化。大数据的核心是数据计算方法和技术,特别是数据关联分析、机器学习和模式识别等。
数据关联分析在大量散乱的数据中发现数据之间的相关性,并将这些数据形成一个数据集,从而描绘出某个事物或事件的发展规律或趋势。它与信息化侦查中的信息查询分析最主要的差异是没有强烈的针对性、不关注数据之间的逻辑联系、因果联系等,只是通过特定的算法找出隐含在海量数据背后的规律和趋势;机器学习是让计算机模拟人类学习,通过向计算机输入大量数据使其自我学习和调整,在这里,数据信息杂乱无章和质量不均等问题可以由数据的庞大规模来缓解,以此软化信息化侦查中对信息精确度的硬性要求;模式识别是计算机通过对表征特定事物或现象的数据进行分析,形成对该事物或现象的描述、辨识和分类等,用于识别文字、语音、图像等。
简言之,更多样化和技术含量更高的数据处理能力是大数据侦查超越信息化侦查的核心表现。在当前的信息化侦查中,侦查部门整体上仍采用传统的数据分析工具和方法,分析工具的开发工作较薄弱,分析工具在用户体验、针对性、专业性和实用性等方面都有不足。公安机关应当自主研发和外包双管齐下,在充分了解数据特点和侦查需要的基础上,重视分析工具的研发、应用反馈和持续性改进等方面的工作。
(三)养成大数据侦查意识
大数据侦查思维与大数据侦查的建设互为因果,既是大数据侦查建设的指引,也是大数据侦查的有机组成部分。
传统的侦查思维方式是关注犯罪案件要素之间的因果联系,依据大量的侦查经验、社会生活经验等“隐性知识”对犯罪动机、犯罪嫌疑人与被害人的关系、犯罪方法、犯罪嫌疑人条件等进行逻辑分析,形成侦查假设或对案件、犯罪嫌疑人的轮廓性认识,在此基础上采取与人进行言辞交流或利用网络电子技术进行信息查询、比对等方法发现线索和获取证据,查明案件事实、查获犯罪嫌疑人。在这一过程中,数据或信息的驱动仅是局部的或者是阶段性的。与此不同,大数据侦查思维可以称之为数据驱动意识,即案件侦查过程、犯罪控制功能和数据分析挖掘三者之间形成一个动态波轮,形成数据——侦查——控制——数据——侦查——控制——数据的往复循环。换句话说,在观念意识上,数据本身与案件侦查和控制犯罪是同一层面的东西,而不仅仅是发现线索或查获证据的手段。例如,大数据侦查通过挖掘反映案件事实构成要素之间的客观相关性,弥补逻辑思维、经验思维、直觉思维等的不足,发现逻辑思维发现不了的“尿片与啤酒”之间的关联,从而更快、更主动地发现案件事实之间的关联,并通过数据挖掘形成机器学习和聚类分析,指导侦查方向。
在养成大数据侦查意识的过程中,侦查部门一方面应当总结出一些不同于传统侦查、信息化侦查的大数据侦查模式、工作流程;另一方面,以侦查需要为引导,加强侦查经验与大数据挖掘之间的联系、重视大数据的可视化等,从而强化大数据的实用性。
当然,需要再次强调的是,大数据侦查意识与传统侦查意识是互相补强的关系,而非取代与被取代的关系。
综上所述,大数据侦查还是一个——也许并不非常遥远,但无疑还有很长一段路要走的畅想或规划。当前实践部门和理论研究者们所做的所有努力都是致力于推动它的早日实现。但是,首先要明确的认识是:至少在侦查领域,我们所处的信息化侦查阶段与大数据侦查阶段还有质的差距。
杨郁娟,法学博士,中国人民公安大学侦查与反恐怖学院教授,主要研究方向:侦查学。
声明:本文来自公安部公安发展战略研究所,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。