本文发表于《指挥信息系统与技术》2023年第1期
作者:颜克冬,徐琳,宫小泽,王永利
引用格式:颜克冬,徐琳,宫小泽,等. 开源情报可信分析系统的关键模型与技术[J]. 指挥信息系统与技术,2023,14(1):57-61.
摘要
搜集和利用开源情报过程中,由于大数据环境下的开源情报存在虚假信息泛滥等问题,因此决策者难以根据搜集的开源情报做出科学论断。为充分挖掘开源情报价值,并对情报的真假进行甄别,需在开源情报分析处理前进行情报可信评估。研究了开源情报可信分析,设计了开源情报可信分析系统的流程与总体框架,总结了开源情报可信分析的关键模型与技术,从而为开源情报可信分析提供参考。
0 引言
开源情报(OSINT)指从各种公开信息资源中获取的情报,具有低成本、低风险和高收益等特点。由于开源情报来源广泛,其来源渠道不仅包含权威机构官方媒体发布的新闻报道,还包含社交网络中大量个人或自媒体言论,因此开源情报的质量参差不齐。例如,针对俄乌战争,社交媒体上充斥着各种战况报道,一时无法分清谁是谁非。
开源情报的价值依赖于开源情报的质量,因此开源情报的可信度成为开源情报使用的前提。开源情报的可信分析制约着后续的研判与决策,并影响着开源情报价值的有效发挥。在互联网和大数据环境下,开源情报的种类繁多且发布平台各异,可信情报因埋没于虚假数据中而无法直接利用,而人工筛选情报费时费力,有时甚至面临情报过时的风险。因此,急需开发一套开源情报可信分析系统,对开源情报进行快速筛查整理,为事件的发展理出大致脉络进而做出可信判断。
1 总体技术框架
为了对开源情报进行可信分析,需构建开源情报可信分析系统。开源情报可信分析系统需具备以下功能:1)开源情报获取与识别提取:针对事先定义的主题从多个情报源持续采集最新的开源情报,聚合后存储于数据库;2)开源情报可信分析:从多个角度抽取开源情报可信特征,利用多种方法构建可靠稳定的情报评估模型。开源情报可信分析总体框架如图1所示。
图1 开源情报可信分析总体框架
2 关键技术
2.1 开源情报采集
掌握的有效信息量越大,越能接近事实的真相。为构建主题事件完整信息,跟踪事件的发展变化,需从多种公开渠道获取开源情报,为其可信研究提供数据支持。开源情报采集范围应覆盖国内外重要军事新闻网站以及国家官方网站。
互联网开源情报采集需使用网络爬虫技术。爬虫按类型分为以下3种:1)批量型爬虫:有明确的抓取范围和目标,爬虫达到目标后即停止;2)增量型爬虫:会持续不断地抓取新网页,并定期更新抓取过的网页;3)垂直型爬虫:选择性抓取与预先定义的主题相关的页面,并在抓取时可对内容进行简单处理。
开源情报收集通常聚焦于特定的网站或社交媒体账号,故采用垂直型爬虫技术。垂直型爬虫工作流程如图2所示,在初始化阶段,先将网站、微博公众号和社交账号等的统一资源定位器(URL)作为种子URL放入待抓取URL队列,爬虫开始后,从待抓取URL队列的队首取出待抓取的URL,访问URL并解析出文本、图片和视频存入数据库,再将这些URL放入已抓取URL队列,将其中包含的其他URL放入待抓取URL队列的队尾,并进入下一个循环直至待抓取URL队列为空。
图2 垂直型爬虫工作流程
由于需要收集的情报源较多,为了提高开源情报收集效率,需构建一个集群,以分布式方式进行抓取。分布式集群内的不同抓取服务器有对等模式和主从模式2种工作方式。其中,对等模式下的抓取服务器在分工上相同,无主次之分;主从模式下有1台专门的主服务器来维护待抓取URL队列,负责将待抓取URL分发到不同的从服务器,监控和平衡从服务器的负载,从服务器负责实际的网页抓取和解析工作。虽然上述2种方式均可提高开源情报收集效率,但对等模式工作方式的可扩展性较差,因此本文采用主从模式工作方式。主从模式工作方式示意图如图3所示。
图3 主从模式工作方式示意图
2.2 开源情报可信分析
宏观层面上,情报可信分析方法分为定性和定量2类可信分析方法。定性的可信分析方法对收集的资料进行归纳整理,从而对事物的本质得到一个可解释的理论,其分析方法根据集合形态分为清晰集、模糊集和多值集3种类型。定性分析方法能够处理的样本量较少、可操作性较弱且易受主观因素影响,因此主要用于社科领域研究。定量的可信方法以情报本身和情报传播者相关理论为基础,对自然语言处理、数据挖掘和深度学习等领域的研究成果进行分析,包括基于知识的可信分析方法、基于风格语义的可信分析方法、基于传播模式的可信分析方法以及基于情报源的可信分析方法。
2.2.1 基于知识的可信分析方法
基于知识的可信分析方法通过验证开源情报中的知识是否与事实一致来检测情报的真假。该方法中的知识通常用由主体、谓词和客体组成的三元组表示,而事实就是被验证为真相的三元组。基于知识的可信分析方法需要事先构造知识库,知识库以知识图谱的形式存储事先验证为真相的事实,主体和客体以节点表示,表征主体和客体之间关系的谓词以边表示。
按知识来源划分,知识库分为基于单情报源的知识库和基于多情报源的知识库。基于多情报源的知识库需解决信息冗余和冲突等问题,因此其构建效率较低,但由于该知识库的信息来源广泛且覆盖率高,库中的知识比基于单情报源的知识库更加完全。因此,需构建基于多情报源的知识库。
在构建基于多情报源的知识库之后,文献采用匹配法对情报进行验证,先将1条情报抽取成多个由主体、谓词和客体组成的三元组,再将每个三元组与知识库中的三元组进行比较并得到匹配概率,最后聚合该条情报所有三元组的匹配概率,并利用加权或算术平均计算得到该条情报的可信度。可信度数值大小代表可信的程度,1表明完全可信,0表明完全不可信。除了匹配法外,知识的表示也可作为机器学习方法的输入。文献提出了基于知识表示算法和循环神经网络(RNN)的情报可信分析模型,该模型将知识图谱技术应用于情报可信分析,以三元组形式表示情报,先用知识表示算法将图谱中的实体、属性和关系映射到低维向量空间,再使用RNN对多级关联关系进行聚合,最后采用路径可靠性算法对图谱中2个节点间的多条可信路径进行加权计算。
2.2.2 基于风格语义的可信分析方法
基于风格语义的可信分析方法针对开源情报的内容,利用机器学习或深度学习方法学习情报内容的风格和语义,从而得到可信评估模型。针对1条开源情报,可采用可以量化的机器学习特征来表示。特征既包含文本特征又包含图片视频中的视觉特征。对于文本形式的情报,其特征分为一般特征和潜在特征2类。其中,一般文本特征包含词汇、句法、语篇和语义;潜在文本特征通常用于文本嵌入,而这种嵌入可以在词汇级别、句子级别或文档级别进行,嵌入结果为表示情报的向量,并可直接作为传统机器学习或深度学习的输入。对于视觉特征,可以使用人工选择的特征,也可以使用神经网络获得潜在的表示。在获取情报特征后,可使用传统机器学习或深度学习的方法构建可信评估模型。
按处理数据类型划分,基于风格语义的可信分析方法分为基于单模态方法和基于多模态方法。基于单模态方法通常用于文本数据。文献提出了一种理论驱动的虚假情报评估模型,从词汇、句法、语义和语篇级别对情报进行特征提取,并依靠社会和司法心理学中的理论,使用监督学习方法中的逻辑回归、朴素贝叶斯、支持向量机和随机森林等进行虚假情报的评估分析。文献指出完全基于自然语言处理的深度学习模型无法在没有进一步事实检查的情况下判断情报的真实性,为了解决这个问题,增加了一个实时数据阶段来提供次要特征的挖掘,这些特征包括情报来源和情报撰写者姓名等。文献设计了一种新的深度神经网络来检测虚假情报,包含以下3个组件:1)状态敏感的人群响应特征提取器:用于从用户的文本响应及其相应的用户配置文件组合中提取文本特征和用户特征;2)感知位置的注意力机制:用于突出在特定排名位置的重要用户响应;3)基于多窗口大小的多区域均值池化机制:用于特征聚合。
文献对情报源和情报内容分别进行了研究。针对情报源可信分析,提出了Info-Trust模型,通过量化情报源身份、历史情报、社交网络结构和用户反馈等信息和加权计算,得到情报源可信的量化结果,并将其分为非常可信、很可信、不可信和完全不可信4个等级;针对情报内容,构建了一种异质情报图,使用基于相似度的推理和基于关联关系的推理2种图挖掘技术,提取大量的信任特征,将情报内容可信评估模型归结为一个二分类问题,并使用随机森林机器学习算法进行情报可信性评估。
文献将多源情报分为可信、不可信和无法判定3类,针对提取的特征进行独热(one hot)编码,实现了基于深度神经网络算法的情报质量评价模型,取得了较好的准确率。文献提出了基于深度信念网络(DBN)的可信判别模型,DBN先以无监督方式学习隐藏或高阶特征,同时降低特征维度,再以监督学习方式构造可信分析二分类的分类器。文献提出了一种端到端的数据增强组合框架,使用数据增强技术以及将微博文本信息与发布虚假情报的用户属性信息联合建模来进行虚假情报检测,并使用纯文本和增加用户特征的加权组合实现情报稳定的可信评估。文献提出了一种基于词、句子和上下文的三维写作风格特征的社交媒体低可信度文本自动检测方法,采用多通道卷积神经网络提取文本风格的高级抽象信息,并利用注意力机制捕捉各维度特征对虚假情报检测的影响。
以上方法均为监督学习方法,需要大量标注好的数据,而实际应用中的数据往往是少量标注或无标注,因此需要利用半监督或无监督的学习方法对数据进行检测。文献提出了以无监督学习方式检测虚假情报,将情报的真实性和用户的可信度视为潜在的随机变量,利用用户在社交媒体上的参与情况来确定他们对新闻真实性的看法,采用贝叶斯网络模型来捕捉新闻真相、用户意见和用户可信度之间的条件依赖关系。
基于多模态的方法的研究相对较少,主要聚焦于文本与图像的结合。文献提出了事件对抗神经网络(EANN)的端到端框架,通过推导出不随事件改变的特征来对新情报进行可信评估,该框架由多模态特征提取器、虚假情报检测器和事件鉴别器3个组件组成。其中,多模态特征提取器用于从情报中提取文本和视觉特征;虚假情报检测器在提取特征基础上鉴别情报的真假;事件鉴别器将情报分类成预先定义好的类型。文献提出了多模态变分自动编码器 (MVAE)的端到端框架,使用双模态变分自动编码器和二进制分类器来完成虚假情报检测,该框架由编码器、解码器和虚假情报检测器模块3个组件组成。其中,编码器将文本和图片信息编码成潜向量以获得情报的多模态表示;虚假情报检测器以潜向量作为输入对情报进行可信评估。文献出了一种能够感知文本和图像相似性的多模态虚假情报检测方法,利用神经网络分别提取情报的文本和视觉特征并分析特征之间的关系,并将这些因素共同用于情报的可信评估。文献在多模态情报可信评估研究中发现可将实体不一致、相互增强和文本补充3个有价值的文本图像相关性用于情报的可信评估,先提取类似名人和地标等视觉实体来获得情报的高层图像语义,再通过与文本中实体比较对多模态实体的不一致和相互增强关系进行建模。
2.2.3 基于传播模式的可信分析方法
基于传播模式的可信分析方法利用与虚假情报传播的相关信息对情报进行可信分析,通常用图作为基础对情报的传播进行描述。情报级联图是一种树状或类树状结构,可形象表示情报在社交网络上的传播情况,已作为刻画情报传播链条的工具。文献指出,虚假情报的级联深度和最大宽度等特征通常大于真实情报,虚假情报级联达到任何深度和大小所需时间均少于真实情报级联所需时间。
基于传播模式的可信分析方法将情报的可信评估转化为对情报级联图的分类,具体包括以下方式:1) 先提取情报级联图的一些特征(级联图节点总个数、级联图宽度和级联图深度等),再采用传统机器学习方法进行分析;2)根据情报级联图结构特点使用图卷积网络(GCN)。文献提出了双向图卷积网络来探索情报自上而下和自下而上传播特征,并构建了2个GCN,1个GCN利用具有自上而下的情报传播有向图来学习情报传播模式,另1个GCN利用与情报传播相反方向的有向图来捕捉情报扩散的结构。文献将用户和文本这种静态数据的特征与情报传播的动态特征进行融合,通过GCN来表示情报传播结构,从而对情报进行可信分析。文献将语义信息与传播异构图进行融合,并结合领域知识来对情报进行可信分析,先利用注意力机制来学习文本的语义表示,引入GCN来捕获情报源以及转发与用户之间的全局和局部关系,再使用文本语义和传播异构图的有机组合来训练情报可信分析模型。
2.2.4 基于情报源的可信分析方法
基于情报源的可信分析方法是开源情报可信分析的间接方法,通过评估情报源的可信度来确定情报的可信度。例如,某情报源的历史行为不可靠,可直接判定其发布或传播的情报为不可信。文献按不同情报传播阶段将情报源分为情报撰写者、情报发布者和情报传播者3种。由于情报撰写者和情报发布者具有隶属关系,表现具有同质性,因此通常对两者一起分析,研究内容包括以下3个方面:1)寻找不可靠情报撰写者和发布者表现出来的模式;2)利用算法识别一些垃圾网站;3)利用有权威的第三方资源来确定情报发布者的可信度。
对于情报传播者的研究则主要集中于对社交媒体上的用户进行识别,这是因为社交媒体上可信度低的用户更容易成为虚假情报的传播源。根据行为是否具有故意性,这些用户可分为恶意用户和容易蒙蔽的普通用户。文献基于半监督学习方法提出了一个自动发现推特(Twitter)中虚假情报源账户的系统,先使用推特提要来发现用户共享结构,再使用与主题无关的分类器对新发现的虚假情报源账户进行评分和排名。
3 结束语
本文针对大数据环境下的互联网开源情报的可信分析展开了研究,提出了一个可信分析系统的总体框架,并为每个模块中的关键模型和技术总结归纳了相关研究成果。情报分类不是相互孤立的,在实际构建开源情报分析系统时可将上述基于知识的、基于风格语义的、基于传播模式的以及基于情报源的4类可信分析方法进行结合并相互借鉴补充,以此增强开源情报可信评估的准确度和可靠性。
相关文献推荐:
李子,李亚钊. 美军防空反导作战中的战场情报准备[J]. 指挥信息系统与技术,2022,13(3):23-27.
郭文强,张志政. 基于多模型融合的开源情报文本分类方法[J]. 指挥信息系统与技术,2022,13(3):44-51.
刘波,赵晓莲. 预警指挥机情报综合能力评估[J]. 指挥信息系统与技术,2021,12(5):92-97.
王适之,黄志良,申远,等. 军事情报智能推荐算法综述[J]. 指挥信息系统与技术,2021,12(2):7-15.
张慧,张骁雄,丁鲲,等. 美军智能数据情报KAIROS 项目分析[J]. 指挥信息系统与技术,2021,12(1):45-49.
李亚钊,程浚,阚凌志,等. 基于主成分分析法的可组合情报生成技术[J]. 指挥信息系统与技术,2020,11(6):42-46.
王玉珠,刘鹏康,徐羽丰. 雷达情报质量评定[J]. 指挥信息系统与技术,2020,11(4):96-99.
潘泉,胡玉梅,马季容. 基于变分贝叶斯联合优化的情报监视与侦察[J]. 指挥信息系统与技术,2020,11(2):1-8.
熊朝华,吕望晗,吴蔚,等. 情报侦察领域人工智能技术的应用与发展[J]. 指挥信息系统与技术,2019,10(5):8-13.
袁林,葛唯益,陈晓琳. 科技情报智能检索与语义分析[J]. 指挥信息系统与技术,2019,10(5):34-39.
声明:本文来自防务快讯,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。