文 / 金吉 陈玲 吕品
摘 要:大数据技术在情报搜集和处理中发挥着重要作用。本文提出基于大数据背景的公安积分预警系统,介绍了系统的设计思路,并根据功能属性和流程阶段将系统分为积分预警模块、预案/布控模块和运营服务等模块。
关键字:大数据 积分预警 挖掘 处置 运营服务
1 引言
在情报主导警务这一术语中,“情报”即“Intelligence”,而非“Information”。但在社会信息化发展背景下,情报(Intelligence)=信息(Information)+分析研判。情报来自于各种信息资料的解读、研判,如犯罪和事件数据、各类社会面信息、通过各种渠道获得的犯罪嫌疑人员相关活动等信息。为获得准确、有效的情报来主导警务,公安机关应该尽可能获取更多的信息资源。
大数据的核心价值是预测分析,且在商业领域已经得到了广泛且成熟的应用。而与此同时,大数据也开始在警务领域崭露头角。如美国加州桑塔克鲁兹市利用大数据构建了犯罪预测系统,对犯罪区域和犯罪时段进行预测并部署警力进行巡逻,大幅度降低了犯罪率;在美国波士顿马拉松爆炸案中,警方通过摸底排队搜集私人录像和照片,并通过社交网站等向公众征集相关信息,最后通过大数据的查询比对,在获取犯罪嫌疑人图像后成功抓捕了犯罪嫌疑人。随着情报主导警务在世界范围内的普及和运用,大数据必将在情报的搜集和处理中发挥重要作用。
2 大数据背景下对于积分预警系统的新认知
公安积分预警系统正是基于大数据背景下的情报主导警务模式应运而生的。从本质上来讲,积分预警系统可以视作一种公安数据挖掘手段(主要采用关联关系分析、聚类分析等技术)的产品化体现,通过大量信息数据的采集、整合、清洗,进而制定相应的积分规则,设置相应的权重与参数,实现区分预警等级,为落地查控提供有力的情报基础。传统的积分预警系统设计(积分规则设计),主要采用人工经验制定的方式,随着大数据、人工智能等技术的发展,其积分模型的设计将逐步被数据挖掘方式取代。
3 数据挖掘与积分预警
数据挖掘是从包含有大量不完全的、有噪声的应用数据的数据库或数据仓库中发现未知、隐含且有规律性的、可理解的、有利于决策的信息和知识的过程。 作为一门综合性的技术,数据挖掘不仅包含各种数据挖掘算法,还与统计学、数据库技术、人工智能、机器学习等多个领域的理论相互交织。公安实战人员可以利用各种分析工具在大量的公安数据中发现模型和数据间的关联性,使用这些模型和关系可以帮助决策部门基于数据间的潜在关联性做出评估、预测与决策。 目前,国内外执法部门都在研究和探讨面向相关职能领域中的数据挖掘理论方法和技术。传统的数据挖掘技术如关联分析、分类、聚类、预测分析都可以应用于具有大数据特征的违法犯罪信息领域。其中,关联规则模式及其改进型应用最为广泛,其基本思想是发现频繁性至少和预定义的最小支持度一样的所有频集,然后由频集产生强关联规则,选择那些超过设定支持度和可信度的关联规则为可行性关联规则。
数据分析和犯罪情报对客观的决策机制至关重要。根据公安学术界的定义,积分预警系统正是一种基于对异常行为信息的数据分析、情报加工,为侦查工作乃至其他相关警务活动的决策提供科学依据。公安积分预警,指的是在警情发生之前对其进行预测报警,即运用现有的公安情报,判断、描述和预测事物的变化趋势,并与预期的目标量进行比较,利用设定的方式和信号(积分达到上限),实行预告和示警,以便使公安机关有足够的时间采取相应的对策和反应措施或是根据预案采取行动。
本文将“积分预警系统”的应用方向定义为侵犯财产、人身伤害、吸贩毒类治安性质违法犯罪及危害国家安全、公共安全类刑事犯罪,即主要面向基于异常行为的违法犯罪类应用。普遍意义上的经济类犯罪、网络类犯罪等非接触式犯罪,因犯罪分子可不用频繁改变其物理位置,仅在办公室、网吧等固定场所就能达成犯罪的事实,不涉及异常行为特征(与日常的工作生活轨迹无异),不在讨论之列。
4 公安积分预警系统的设计思路
4.1基于异常行为进行分析预警
在当前公安信息化建设不断深化的形势下,将应用模式由事后研判转向事前预防预警已成当务之急。公安情报预警系统的建设,总体来讲,有两个设计应用方向,一是以人为主线开展情报管控,二是基于案件进行预防预警。公安机关在早期,由于各种技术手段的限制,较多采用后种方式进行防控,即通过已发生的案件去关联涉案人员,发散至其人际关系网,以防范类似案件的发生。这种预防预警的方式,时间上存在滞后,当案件发生时往往不能有效控制局势,也不算真正意义上的预防预警。
在大数据时代,应树立以人为主线的预防预警模式,其中对于嫌疑人异常行为的监控,就是一种非常有效的手段。异常行为信息是以语言、文字、图像等为载体,对嫌疑人的活动轨迹、行为习惯、作案过程、作案痕迹等与犯罪行为密切相关的信息进行实体化的反应。积分预警系统的设计,应基于异常行为分析来开展,通过不断反馈和归纳,致力于挖掘不同异常行为信息与刑事案件的关联程度,并开展相应的预防和预警。
4.2 最大限度整合数据以突出视频监控作用
积分预警系统的设计应以最大化情报信息(包括数据信息)收集为基础,本着“把一切和公安工作有关的事物都纳入到情报收集的范畴中来”的思想,整合各类公安管控数据、视频监控结构化信息数据、物联网前端采集的信息数据(未来,数据来源将进一步丰富),并设计用于数据规范化整合、清洗的数据表。
在当前公安系统内部设计应用的积分预警系统中,系统设计者已经逐渐意识到异常行为轨迹分析的重要性,但由于数据来源不足,目前主要通过收集嫌疑人通讯工具信息(基站信息)、旅馆入住信息、交通出行信息(火车飞机出票信息)等来做较为粗放的轨迹刻画。公安积分预警系统的设计,应能充分发挥视频监控建设的规模效应,将视频流、图片流转换为结构化信息,并从人、车、物多个维度,更为细致地刻画嫌疑人轨迹信息、描述其作案的行为习惯,可为积分预警系统的建设研究开拓新的视野,将积分预警系统的应用成效提升至新的层次。
4.3大数据挖掘建模为主和人工干预为辅
当前公安系统的积分模型多是建立在民警办案经验的基础上,而不是建立在对异常行为信息与发案情况关联研究的基础上,现存的积分规则、嫌疑指数、具体分值、积分系数等缺乏科学性,缺少实证研究的基础。为解决这一问题,系统积分模型的设计应主要采用数据挖掘建模的方式进行,首先多维度、广泛地进行情报信息(信息数据)的采集,而后做标准化归纳和数据清洗,将海量数据统一输入系统,由系统运用大数据、机器学习等技术,自行挖掘异常行为信息与刑事案件之间的关联关系,构建不同案件属性的多套积分模型。同时,强调人工干预的重要性,充分发挥公安民警系统分析师的经验作用,结合运维服务团队的设置,对系统积分模型进行调整与修正,使模型更贴近本地化,提高其实用性与有效性。
4.4 通过合理划分功能模块理顺积分预警流程
系统流程功能、部署应以模块化设计为主导思想。整个系统分为三个主要模块,包括积分流程模块、预警模块和运维服务模块,并将积分指标体系设置为独立体系,便于系统开发,实现系统的逐步升级,确保原有系统平滑稳定过渡。
5 积分预警系统业务流程设计
系统根据功能属性和流程阶段可划分为积分预警模块、预案/布控模块和运营服务三个模块系统。总体业务流程如图1所示。
图1 系统总体设计流程
5.1 积分预警模块(流程)
5.1.1 数据收集
基于异常行为信息的积分预警系统数据收集包括众多类目,从数据的属性上来说,主要分为动态异常行为信息、管控信息和现实异常行为信息三类;从数据的来源上讲,主要包括视频监控的结构化信息(包括对普通IPC产生的视频流、车辆/人员卡口抓拍图片等进行结构化解析产生的视频数据)、公安各类信息库数据(比如人员/车辆身份信息、案件信息等)、由物联网采集设备产生的数据(如MAC地址数据、RFID数据)、地理位置数据(地理位置根据不同的业务需求划分相应的重点区域)等。
5.1.2 数据整合(清洗)
通俗地讲,积分预警系统就是在获取新的数据后,将新的数据与原有数据进行比对,并根据既定的数学模型重新赋值的过程。因此,从各类数据源采集到的各类数据必须根据一定的数据格式进行规范化、标准化的排列。将采集到的异构数据进行数据清洗,检查数据的一致性,处理无效的数值并解决数据缺失项的问题。
在积分系统的大范围落地应用中,系统自身产生的数据(包括视频结构化后的数据、物联网前端设备采集到的数据等)的标准化是可控的部分,而各地公安系统的管控数据则存在较为显著的数据格式标准不一问题,因此必须进行数据整合与清洗的过程。
为避免积分预警系统与各地公安数据库对接需要频繁修改、定制开发的问题,建议设计一款用于数据整合(清洗)的“中间件”产品(比如依托视图库进行设计),当系统需要与各地公安机关不同的数据库对接时,仅基于此“中间件”产品进行定制开发,而“中间件”产品与积分预警系统之间的内部接口则保持相对的稳定。同时,数据“中间件”应能实现从现有车辆/人脸大数据实时抽取数据(包括车辆/人脸模型、结构化数据、图片URL地址等)的能力。
图2 数据中间件示意图
5.1.3 分析评估
分析评估即相应的积分预警过程,对于不同的公安业务应选取不同的积分预警指标体系(“选择指标体系”为“分析评估”流程的子流程)。
5.1.4 积分预警指标体系
制定积分预警指标体系是一个相对独立的过程。制定完成之后的指标体系在每一次单条积分流程中都会使用。制定合理的指标体系要经过指标初选、指标遴选、确定层级、确定权重和形成预警指标体系等步骤,需要保障制定出的指标既有犯罪学学理上的理论支撑,又要有实践中的可操作性。
系统采集的各类异常行为动态数据逐项通过积分预警指标体系进行判定,根据相应的权重设置和可信度判定,实现对重点管控(关注)人员积分总表的赋值,并将数值返回给积分预警系统。
当前公安系统的积分模型多是建立在民警办案经验的基础上,而不是建立在对异常行为信息与发案情况关联研究的基础上,现存的积分规则、嫌疑指数、具体分值、积分系数等缺乏科学性,缺少实证研究的基础。同时,全国多数公安机关并不是根据本地需求建立积分模型。因此,积分预警、嫌疑指数的科学性、可靠性难以得到保障,在实际运用中会出现偏差,出现高“误报警率”问题。在积分预警系统的运行中,系数、分值设定具有时效性,异常行为信息的权重随着时间发生动态变化,因而必须要进行相应的人工干预。
此外,还应根据事后的输出的系统评估报告分析利用积分预警系统开展预警工作的有效性,分析其偏差,对相应的积分预警指标体系进行相应的调整和修正(参数遴选、权重设置),以提高系统预警的准确率。这项工作主要由运维管理团队来完成,在相应的运营服务流程中实现。
5.1.5 层级排列及输出展示
各重点管控人员的积分状况应以一张列表的形式进行动态、实时地展示。自公安部2011年3月1日在全国实施“积分预警,分类处置”的重点人员管控工作模式以来,公安系统内部一般使用“红、橙、黄、蓝”四色进行预警程度的重要性划分(重要性:红>橙>黄>蓝),根据实时的积分累计,相应变更其预警等级,使指挥研判的民警对总体形势能具有一定的了解。
5.1.6 预警
当受控重点关注人员的积分值达到预先设立的预警阈值后,系统将自动生成预警并输出相应的预警报告。
给予公安部门预警的方式有多种,例如平台客户端报警消息(视频弹窗、消息弹出等)、短信、手机客户端等都可以把预测到的犯罪预警信息推送到用户。具体的形式需要在后续的系统设计中进一步明确。
预警报告作用主要有两个:一是及时输出至决策民警,供民警进行决策、研判,由决策民警决定是否启动相应的处置预案(进入处置预案/布控流程模块);二是生成的预警报告需要在结案(或事后)输出至运营服务团队,由运营服务团队将其与结案报告进行对比分析,输出的结果作为修正积分预警指标体系的依据。预警报告以电子文档形式生成,应包含受控重点人员的基本人员信息、前科案件信息(如前科案件号等)、关联人物信息、积分累积起始时间节点至预警发布时间内的相关异常行为信息(比如轨迹)等,能供决策民警快速熟悉受控重点人员的方方面面。
5.2 处置预案/布控模块
当受控重点关注人员的积分值达到预先设立的预警阈值,决策民警可选择是否触发相应的处置预案,系统的总体流程跳转至处置预案/布控流程模块。
对于布控,其措施多种多样,系统解决方案的设计可专注于视频类的布控,例如运用可视域相机对受控人员进行跟踪抓拍,实时刻画其轨迹并于大屏显示输出等。
5.3 运营服务模块
基于异常行为的积分预警系统运行设计中涉及大量的数据清洗、系统维护以及积分预警指标体系的人工干预(参数的修正/调整),因此需要专门的运营服务团队进行系统的维护、运营。
负责管理、操作、维护积分预警系统的专业人员,可以分为管理人员、操作人员和维护人员。管理人员应由具有办案经验且具备一定研发能力的人员构成,负责对积分预警系统的顶层管理。这部分工作可以以服务运营的方式外包,也可由负责研发整套系统的厂家服务人员组成,或由厂家对局方分析师(具有信息化系统开发背景的公安民警)进行培训后移交系统维护工作;操作人员由辅警或厂家服务人员组成,负责积分预警系统的日常操作。维护人员负责为积分预警系统提供技术支持,并维护系统的安全运行。维护人员可以由具备计算机专业技能的辅警构成。所有专业人员需经过专业培训方能上岗。
当前政府在项目开展的形式中,对“购买服务”这一方式推崇备至,因此解决方案的整体设计中,也应考虑“卖服务”的具体运作方式。
参考文献
[1]吴绍忠.重点人员积分预警模型建设基础问题研究[J].中国人民公安大学学报,2012(2).
[2]陈刚,李松岩.对以异常行为信息为基础科学构建积分预警系统的思考[J]. 北京警察学院学报,2013(1).
[3]彭知辉.大数据:让情报主导警务成为现实[J].情报杂志,2015(5).
声明:本文来自公安部检测中心,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。