文│ 中国人民公安大学国家安全学院 闫红丽
恐怖主义给世界各国人民带来了巨大的灾难和伤痛,严重威胁国际社会安全稳定。随着国际反恐力度的加大,恐怖组织的物理活动空间受到极大压缩,其恐怖活动的形式开始由线下转为线上,互联网成为恐怖组织策划、煽动实施恐怖活动的重要手段和渠道。网络涉恐信息隐蔽性强、影响力大,传递迅速、易于扩散且很难控制,识别与发现网络涉恐信息,成为预防并从源头打击恐怖主义泛滥的主要手段。
一、从源头清理网络涉恐信息,及时阻断恐怖主义网络传播
虽然网络涉恐信息的内容和表现形式不同,但是,归根结底,我们主张,凡是在网络空间宣扬煽动恐怖主义的都是网络恐怖活动,凡是联合国认定的恐怖组织在网上的一切活动都是网络恐怖行为,网络恐怖活动和网络恐怖行为产生的信息,都属于网络涉恐信息的范畴。
总体看,网络涉恐信息主要包括以下四类:第一,煽动进行“圣战”,声称要摧毁异教徒,招募自杀式恐怖主义袭击者,煽动以“圣战”殉教的狂热,时刻保持战争状态;第二,传授恐怖主义实施的方法和技术,发布恐怖分子训练手册,传授制爆方法和技术;第三,宣扬宗教极端思想,鼓吹除了真主以外,不服从任何人,公开抵制政府管理,歪曲、诋毁党和国家政策;第四,煽动民族仇恨,以各种蛊惑人心的方法,公开煽动民族仇恨、民族歧视,煽动世界的穆斯林向异教徒发动“圣战”,呼吁世界穆斯林对“圣战者”进行援助。识别与发现网络涉恐信息,从源头上清理网络涉恐信息,才能及时阻断恐怖信息的网络传播。
(一)网络涉恐信息是当前最主要的恐怖主义信息存在形式
恐怖组织利用网络进行招募、宣扬极端主义思想,以及通过网络进行恐怖主义融资等,这种以网络为工具的工具型网络恐怖主义传播最重要的载体就是网络涉恐信息。恐怖组织不断加大利用网络进行恐怖主义活动的力度,运用网络涉恐信息为恐怖主义思想的传播推波助澜。自杀式恐怖袭击、“圣战”殉教、本· 拉登、“基地”组织等这些词汇,越来越多地被视为一种符号性的精神感召。网络涉恐信息承载了这种虚无缥缈的、意识形态化了的极端思潮,成为恐怖主义思想泛滥的极大隐患。
(二)识别与发现网络涉恐信息是防范恐怖主义的第一步
人类社会进入互联网时代,恐怖组织和恐怖分子在策划组织恐怖袭击时也会借助互联网。恐怖组织会利用互联网获取情报、策划行动;会利用搜索引擎检索查找相关信息,搜索恐怖袭击目标的结构、布置,以及周边环境;会利用电子地图规划路线,做到人不出户,却已踩点;会查找可能的实施恐怖袭击的地点及交通线路。恐怖分子还会利用社交网络获取进一步的信息,会借助某些社交网络平台进行行动前的效忠宣誓。在策划阶段,恐怖分子会在网络上留下各种涉恐信息。在行动开始前和行动中,会利用网络电话、小众 App 等进行通信和勾连,用以协调行动。如果能识别和发现这些零散的、隐蔽的信息,并固定下来,梳理成为一条完整的链条,将会快速锁定涉恐嫌疑人,迅速启动应急响应方案,为预防恐怖主义事件发生奠定基础。
(三)及时清理网络涉恐信息切断恐怖信息网络传播的渠道
对于普通人来说,最有可能接触到恐怖主义思想的途径就是网络,网络涉恐信息的存在成为吸引具有极端思想的个体加入恐怖组织的主要方式。网络涉恐信息鼓励个体发动独狼式恐怖袭击,直接危害社会,或者发布谣言,制造恐怖气氛。媒体是恐怖主义的氧气,宣传是恐怖主义的母乳,及时清理网络涉恐信息,就是切断恐怖组织赖以生存的氧气和母乳供给,从源头上消除恐怖信息的网络传播。
二、网络涉恐信息识别发现的一般路径
识别与发现网络涉恐信息,首先要确定数据源,这是划定网络涉恐信息的源头,从根本上解决从哪儿识别的问题;接下来就是建立涉恐关键词库,解决用哪些词进行筛查的问题,用大量样本对计算机进行训练,使计算机进行自动识别,提高识别效率;除了关键词搜索之外,网络涉恐信息还包含涉恐嫌疑人在网上的与恐怖主义有关的行为轨迹,例如观看暴恐音视频、进行网上的恐怖融资等,建立涉恐行为轨迹数据库,可以完整勾勒涉恐嫌疑人的网络涉恐行为,挖掘出隐藏的网络涉恐信息。在涉恐关键词库和特征行为库的基础上,构建基于场景的业务特征模型,在不同的场景下感知并发现网络涉恐信息。
(一)确定数据源是识别和发现网络涉恐信息的首要工作
对网络涉恐信息可能存在的数据源的确定是识别和发现网络涉恐信息和数据的首要准备工作,这些数据源大多是开源数据,相对零散地散布在网络空间。
恐怖组织发布网络涉恐信息的方式呈现多层次、多渠道的特征,一般来说,主要有以下几种方式。一是自建网站,通过建立自上而下的网站,专门发布暴恐音视频等涉恐信息。几乎所有活跃的恐怖主义组织都有自建的网站,甚至为了躲避政府审查与封锁,各网站还建有多个镜像。在这些恐怖组织的自建网站中,无一例外都有自己的组织“章程”,发展历程、该恐怖组织的政治主张,以及关于“领导人”“烈士”的简介等。二是利用现有通用的大型互联网网站建立宣传发布平台,恐怖组织在各大平台开通博客,发布恐怖组织的招募、宣扬信息。三是设置互动式论坛,利用社交网站进行恐怖主义思想的传播和扩散。四是利用即时通信软件进行沟通协调,恐怖组织使用各种即时通信方式进行通信。五是利用大型网盘音视频分享网站服务提供恐怖音视频下载。恐怖组织在各大网盘和音视频分享网站注册账号,上传实体文件,供恐怖分子浏览下载。
(二)建立关键词库明确搜索意图进而定向追踪涉恐嫌疑人
关键词也称关键字,是网站的三个要素之一(三个要素包括标题、描述和关键字)。它可以是一个词或一个短句子。关键词搜索是搜索引擎索引的主要方式之一,搜集某一个领域的常用关键词并对其进行拓展,筛选优质关键词并进行归类,测试关键词的流量、点击和转化,就可以在一定程度上认识某些用户对某领域的搜索意图。如果能够梳理网络涉恐信息这一领域的常用关键词,可以对某个用户搜索这些关键词的流量和点击率进行分析,就能够摸清楚一些用户搜索的意图。从更深的层次讲,可以通过关键词搜索记录,定向刻画某些有涉恐嫌疑的人群,通过搜索流量的入口对其进行控制。
(三)建立行为轨迹特征库可以帮助刻画涉恐嫌疑人特征
轨迹行为特征分析是刻画对象基本特点最直观、高效的分析方式之一。人类行为是人类在生活中表现出来的生活态度及具体的生活方式,它是在一定的物质条件下,不同的个人或群体,在社会文化制度、个人价值观念的影响下,在生活中表现出来的基本特征,或对内外环境因素刺激所做出的能动反应。社会学认为,人的行为特征是自发的、有原因的、有目标的、持久性的、可改变的。
从网络涉恐信息中提取涉恐嫌疑人的行为轨迹,也会在一定程度上刻画出涉恐嫌疑人特征。涉恐嫌疑人会自发搜索涉恐关键词,且在网上网下做出的行动都出于一定原因,这些行为跟他的自身需求有关,也跟这种行为导致的后果相关。例如,涉恐人员突然不参与正常的社会交往,行为诡秘,与行为异常人员接触,利用手机短信及微信等社交聊天软件交流学习、阅读非法宗教宣传品,推荐非法宣传品资料、文件等,这些行为都带有其明确的目的性,是其极端思想外化的外在反应。犯罪嫌疑人的涉恐行为并非盲目的,它不但有起因,还有目标,都是为其实施恐怖主义活动进行铺垫和策划,这种行为,一般来说,又是持久性的,在目标没有达成以前,是不会终止的。涉恐嫌疑人也许会根据不同的社会环境改变行为方式,或因为被打击力度增强由外显行为转为潜在行为,但总是不断地向着目标进行。涉恐嫌疑人的行为又是动态改变的。为了实现其设定目标,他们不仅经常改变行为方式,而且经过学习或训练还会改变行为的内容。从网络涉恐信息中提取这些行为信息,可以为准确判断涉恐嫌疑人的动机提供依据。
(四)建立业务特征模型库感知不同场景下涉恐对象的行为轨迹
恐怖主义是不对称冲突中的政治暴力,通过暴力使他人受害或破坏非战斗目标(一般是具有标志性的事物),试图引起恐慌及心理上的畏惧。恐怖主义的目标是要透过暴力的表述在传媒面前曝光以达到最佳的宣传效果,以影响目标观众及达到短期或中期的目的,并进一步追求长期的最终目的。
通过对重大暴恐袭击事件的分析,不难发现,恐怖袭击要针对的目标特征明确,一般都是一个国家或地区的标志性建筑,或者是遭受恐怖袭击可能造成重大的人身伤亡、财产损失或者社会影响的单位、场所、活动、设施,通过对这些重点场所的袭击,以展示其威力并试图动摇国家的根基,给遭受袭击的国家政府带来负面影响,从另一个方面提升恐怖组织的声望及意识形态。一般来说,重点场所包含政治标志性建筑、剧场剧院、经济中心建筑、人流量较大的火车站、客运站、地铁站等。对于不同的场所的关注,网络涉恐信息会表现出不同的特征。对这类网络涉恐信息的识别与发现,可以感知在每个场景中涉恐对象的行为轨迹,及时做出预警。
三、网络涉恐信息识别发现的技术支撑
网络涉恐信息海量庞杂,实现计算机初步自动识别发现涉恐信息,是真正盘活数据,使数据发挥最大作用的基础。利用知识图谱技术,从实体的建立、实体属性的添加和完善、规则的建立,以及基于规则的自动推理,最后实现可视化展示的层面,并完整刻画网络涉恐信息的识别与发现过程。知识图谱并不是单一技术,而是一整套数据加工、存储及应用流程,主要包含知识表示、知识抽取与知识挖掘、知识存储与知识融合、知识检索与知识推理。
(一)知识图谱概念的初衷是增强用户搜索质量及体验
知识图谱概念最早在 2012 年 5 月由谷歌正式提出,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。知识图谱由一条条知识组成,每条知识表示为一个主谓宾的三元组(SPO),在逻辑结构上可分为模式层与数据层两个层次,数据层主要由一系列事实组成,而知识将以事实为单位进行存储。
(二)通过知识图谱技术体系建设高质量的知识库
知识表示就是对知识的一种描述,是对知识的一组约定,是一种计算机可以接受的用于描述知识的数据结构。知识表示是知识图谱构建与应用的基础。知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入知识图谱。知识存储是将有价值的知识经过选择、过滤、加工和提炼后,按照一定的规则保存在适当媒介内,以利于需求者更为便利、快速地使用,并随时更新和重组其内容和结构的活动。知识推理就是在已有知识的基础之上,推断出未知的知识的过程,进一步挖掘隐含的知识,从而丰富、扩展知识库。知识表示、知识存储和知识推理构成了知识图谱的技术体系。
对网络涉恐信息的识别与发现,可以通过输入大量结构化或非结构化的包含涉恐信息和无关信息的数据,通过知识抽取技术,从这些数据中提取出与恐怖主义相关的实体、关系、属性等知识要素,通过知识融合,使来自不同情报源的信息在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
(三)基于知识图谱进行业务模型数据验证
利用知识图谱技术,对形成的基于场景的业务模型要进行数据验证。可以自建数据集,用现有的已经判定为恐怖主义犯罪的案例,同时,进一步扩充实践数据。若能真正应用于现有数据平台,则会对据此建立的模型有较大程度的改进,也会实际作用于实战,为网络涉恐信息的识别与发现进行初步的数据筛选,提高反恐工作效率,为后续的人工研判进行初步的数据准备。
四、网络涉恐信息的治理路径
网络涉恐信息的肆虐和泛滥已引起国际社会的高度关注和警觉。联合国安理会已通过 2129 号、2178号决议,要求国际社会加强对网络恐怖主义的打击力度。2129 号决议强调,恐怖分子及其支持者越来越多地利用互联网进行恐怖活动,联合国的反恐机构要会同各国和有关国际组织加强打击恐怖组织和恐怖分子利用互联网煽动招募、资助恐怖活动等行为。2178 号决议再次要求成员国竭力防止恐怖主义利用互联网从事恐怖活动,鼓励成员国打击网上暴力极端主义的言论,共同采取措施防止恐怖分子利用恐怖音视频进行恐怖活动。网络涉恐信息不局限于某个国家、某个领域、某个平台,每一个国家、企业、个人都必须承担相应的责任和义务,对网络涉恐信息源头早杜绝、早发现、早处置,切断网络涉恐信息的传播路径。
(一)完善监管机制,加大对网络运营商的监管力度
在网络“信源→信道→信宿”结构关系中,网络服务提供者对应的是“信道”这一网络信息传输中具有中枢地位和作用的信息桥梁和通道。利用网络所实施的恐怖行为会在网络运营商的管理领域留下痕迹。
《中华人民共和国反恐怖主义法》第十八条、第十九条、第二十一条对电信业务经营者、互联网服务提供者的技术支持、监管义务和网络实名制安全查验和安全管理义务都做了明确规定,并在第八十四条对电信业务经营者、互联网服务提供者的相关责任义务不履行的状况进行了相应的处罚规定。从法律条文角度分析,对网络涉恐信息的识别与发现,其责任主体是网络服务商,执法部门是公安机关和国家安全机关,责任主体的义务主要表现为技术支持、监管和实名制安全查验管理,责任主体若违法需承担明确的法律责任。
(二)完善技术,进一步提高分词识别的效率和准确率
要进一步增强知识图谱等人工智能方法发现网络涉恐信息的能力,通过机器学习和更新迭代,扩充网络涉恐信息的关键词。分词技术主要有“规则分词”“统计分词”和“混合分词”(规则 + 统计)这三个主要流派。规则分词是通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理。随着机器学习技术的兴起,统计分词可以较好应对新词发现,但太过于依赖语料的质量,因此,在实践中,多是采用规则分词和统计分词相结合的混合分词方法。网络涉恐信息以多种形式、多种语言出现在多个网站、社交网络平台和即时通信软件中,完善分词技术,可以完善现有的涉恐信息关键词库、涉恐行为特征库,进而改善业务应用模型,提高网络涉恐信息识别发现的效率和准确率。
(三)与反恐工作实践相结合,从源头识别发现网络涉恐信息
实践是检验方法是否可靠的唯一标准。只有把涉恐信息关键词库、涉恐行为轨迹特征库和基于业务场景建立的识别发现模型应用于实战,经过大量的数据验证,才能真正检验模型的效度和准确度,发挥模型最大的价值。在实践检验中,可以根据不同的数据类型,结合各地网络涉恐信息的多样性和复杂性,进一步修正模型种类,调整模型中设定的参数,真正制定出一套适应不同地区、不同场景、不同类别的网络涉恐信息的识别和发现模型,为信息化反恐做好信息筛选的第一步,为海量数据筛选助力,提高反恐工作效率,使恐怖主义的源头治理更快、更准、更高效。
(本文刊登于《中国信息安全》杂志2021年第11期)
声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。