摘要:提出一种基于本体的军事术语知识图谱构建方法,用于获取军事术语数据中的语义信息并构建军事术语知识图谱。该方法在军事术语数据分析的基础上构建军事术语本体,采用基于规则的方法和基于预训练模型的方法抽取军事术语关系,并使用图数据库存储军事术语知识,可以构建出高质量的军事术语知识图谱,支持语义搜索、智能问答等智能化应用。

为严格规范军事用语,军事管理部门编写了军事术语。军事术语是军队在作战、训练以及其他工作中统一使用的规范化用语,是军事组织和军事人员交流军事思想、传递军事信息、统一军事认知的重要工具。军事术语作为军事领域内的专用术语,专门指称军事相关的概念,具有无歧义、解释性高的特点,在表述军事概念、统一军事认知、协调军事行动等方面起到了巨大的作用。但是,当前军事领域当中存在军事术语应用不规范的军事法规、军事公文。常见的问题有形近混用、义疏滥用等。例如“推进”和“前出”两个军事术语均表示部队向前移动。前者表示对抗敌人前进,后者表示没有遇敌的情况前进。二者所传达的语义对于指挥人员战略部署以及军事行动方向具有重要作用,滥用这两个术语可能导致延误战机等严重后果。随着信息技术的不断发展,信息化作战逐渐成为作战的新形式,目前已有的军事知识图谱均采用网络百科等数据构成,这些数据中的军事术语的数量以及质量难以满足军事文本智能处理等任务的要求。因此,如何构建军事术语知识图谱、发掘军事术语潜在价值,从而规范军事用语、支撑军事术语智能化应用,已成为当前亟待解决的问题。

近年来,知识图谱相关技术经历了快速发展,为军事术语的信息组织提供了解决方案。知识图谱于2012年被Google正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。与此同时,知识图谱也被引入各行各业并发挥了巨大作用。知识图谱可以解决军事领域中的知识表达、共享、分析和应用等问题,为推动军事领域智能化发展注入了强大的动力。雷瑛融合了多个数据源构建军事知识图谱,为军事领域人员快速获取军事相关知识提供帮助。葛斌提出军事知识图谱构建方法与计算框架,为军事信息组织与知识管理提供模板。丁君怡使用开源数据的武器装备数据构建知识图谱,为基于开源数据的知识图谱构建提供了指导。车金立等人提出了一种军事装备知识图谱的构建方法,有效利用网络中的军事装备数据构建军事装备知识图谱,解决了军事装备数据分布稀疏以及数据之间缺乏良好的关联与组织的问题。赵瑜等人提出基于开源数据的军事领域知识图谱构建方法,提出了包含开源数据知识库构建与检索展示的军事领域知识图谱框架,并设计了知识发现算法,为军事领域知识图谱的维护提供了自动化实现方案。上述知识图谱构建方法所采用的数据都来源于网络,数据的质量无法保证,难以满足军事术语知识图谱构建的质量要求。为此,本文提出一种基于本体的军事术语知识图谱构建方法,用于构建军事术语概念体系和高质量的军事术语知识图谱,进一步挖掘军事术语语义信息的潜在价值,为军事相关人员的作战提供参考信息。

1 军事术语知识图谱构建流程

军事术语知识图谱构建流程如图1所示。本文在分析军事术语数据的基础上,设计军事术语本体。军事术语本体定义了军事术语类别和军事术语关系。构建军事术语知识图谱的主要内容为实体识别和关系抽取。军事术语数据为半结构化数据,因此,军事术语数据中能够直接提取出军事术语实体信息。军事术语关系信息采用基于规则的方法和基于预训练模型的方法联合抽取。以上两种关系抽取方法抽取的军事术语关系信息存储在Neo4j图数据库中并进行可视化,便于军事领域人员进一步分析利用。

图1 军事术语知识图谱构建流程

2 军事术语本体构建

军事术语本体对军事术语数据进行顶层设计,规定了术语实体属性、关系等要素,保证了知识图谱构建过程中的规范性和准确性。智能问答系统将用户提出的问题解析为基于实体及其关系的多跳查询,从而返回最终的关联实体。军事术语本体通过规定的实体属性和关系,可以为基于军事术语知识图谱的问答提供具有可解释性的推理,保证了多跳路径的可靠性,为用户提供一个高置信度的答案。

2.1 军事术语数据结构分析

本文构建军事术语知识图谱的数据来源主要是军事概念相关的书籍及内印的标准化数据。军事术语是由军事领域专家编写的规范化术语,具有文字直白精炼、内容科学准确、形式规范统一的特点。军事术语采用的叙述风格都严格按照军事术语编撰手册进行编撰,使用的叙述风格、词语和标点符号具有统一的标准。军事术语文本数据主要由军事术语概念的定义和附加说明组成,定义是对军事术语所表述的军事概念的本质特征或内涵和外延的确切而简要的说明,附加说明是对军事术语概念的补充解释,因此,可以采用基于规则的方法抽取军事术语之间的关系。为了弥补基于规则的抽取方法需要大量人工构建规则的缺陷,本文进一步采用基于预训练模型的方法抽取军事术语之间的关系。基于规则的方法和基于预训练模型的方法相互补充,能够高效且准确地提取军事术语的关系。

2.2 军事术语本体设计

本体论源于一个哲学上的概念,是表达哲学理论的一个术语。本体是指对概念、数据和实体之间的类别、属性和关系的表示、命名和定义。Studer等人将本体定义为本体是共享概念模型的明确的形式化规范说明。该定义覆盖了本体的四大特征:共享、明确、概念化和形式化,该定义被各个领域的专家学者高度认可。通常,本体可以采用一个五元组进行表示,即O=(C, R, F, A, I)。C表示本体当中的概念,本体中的概念可以是广义上的概念,也可以是一般意义上的概念。本体中的概念通常构成一个分类层次,例如军事术语本体当中的军事思想概念、军事战略概念;R表示本体中概念之间的一种关联关系,例如军事术语的同义词是军语;F表示函数,它是本体中一种特殊的关系;A表示公理,它用于表示本体中的永真式;I表示某个概念的基本元素,即某概念类所指的具体实体,例如军事术语、陆军战略。

本文通过归纳整合军事术语相关的本体概念对军事术语进行分类,并借鉴了军事百科全书对军事术语概念的分类。军事术语实体类分为军事思想、军事工作等16大类。军事术语类别的具体定义如下:

1) 军事思想:主要指关于军事相关问题的理性总结,并对古今中外军事经验的总结、提升,例如阿拉伯军事思想、毛泽东思想。

2) 军事工作:主要指军队组织指挥、控制、协调、管理的工作,例如部队后勤工作、飞行训练。

3) 国际军事:主要指国际安全体系、国际安全制度、国际安全观念等诸多范畴,例如国际安全机制、国际政治秩序。

4) 政治工作:主要指中国共产党在中国人民解放军中的思想工作和组织工作,例如中国人民解放军政治工作学、八路军新四军政治工作。

5) 军事历史:主要指对军事历史发展过程及其规律的理性认识,例如中国历代军史、中国近代战争史。

6) 军事后勤:主要指保障军事斗争、军事建设以及其他军事相关活动的经费物资、医疗卫生、交通运输、装备维修、基建营房等方面保障的专业性工作,例如战术后勤、战略储备。

7) 战略:主要指筹划和指导战争及武装力量建设与运用全局的方略,例如兵略、遏制战略。

8) 军事人物:主要指与军事领域相关的历史人物,例如周恩来、朱德。

9) 作战:主要指武装力量攻击或抗击敌方的军事行动,例如岸对潜通信、冲击。

10) 军事技术:主要是指运用于军事领域的技术、武器装备使用的技能及其相关理论的相关术语,例如军事信息技术、弹道修正技术、弹道学。

11) 军事法:主要指由国家制定、认可并以国家强制力保证其实施的,用于调整涉及国家军事利益的社会关系的法律规范。例如《八路军、新四军供给工作条例》《步战令》。

12) 军事环境:主要指与军事活动相关的环境,例如阿巴斯港、北海道岛。

13) 军事著作:主要指关于战争准备与实施、国防和军队建设等问题的理性认识的著作,例如《安民实务》《从兵要地志看中苏战争》。

14) 军事装备:主要指用于武装力量建设、作战和其他军事行动的各种装备,例如“阿法兹”野战炮兵战术数据系统、爆破弹。

15) 国防建设:主要指为提高国防能力而在国防领域进行的各项建设活动,例如边防部队、出境入境边防检查。

16) 综合:主要指军事领域当中相关的综合名词及类别,例如军事术语、海军。

军事术语类目分为虚拟类目和实体类目。虚拟类目为本文定义的16个类目,用于统一不同来源的数据的类目;实体类目由原始文本中的类目构成。军事术语分为军事术语实体节点和虚拟节点,军事术语实体节点是从原始文本中抽取的实体节点。虚拟节点则是由规则构建的虚拟节点,虚拟节点分为同义节点和同名节点。同义节点为从军事术语数据中抽取的同义词节点。同名节点是由不同数据来源的军事术语具有相同名称所抽象的虚拟节点。

概念彼此之间不同形式的相互联系构成了一个专业领域的概念体系。因此,军事术语的概念之间的关系是军事术语概念体系的核心。军事概念的关系主要包含上位军事概念、下位军事概念以及同位军事概念。上下位军事概念是指一个概念是另一个概念的整体或部分的概念,在本文中分为属种关系和整体-部分关系。军事同位概念是指在同一个抽象维度上描述的军事概念,在军事术语本体中分为同义关系和反义关系。军事术语中的同名节点之间为同名关系。此外,军事术语依据其所属类别定义术语的类目关系。依据军事术语本体定义,使用Protégé构建的军事术语本体结构示意图如图2所示。

图2 军事术语本体结构示意图

3 军事术语知识图谱构建

传统的军事术语搜索引擎仅仅通过计算文本相似度获取与搜索内容相关的结果,无法基于搜索内容的语义获取答案,影响了作战人员的搜索效率。为了解决该问题,军事术语知识图谱从原始数据中挖掘高质量的实体和关系信息,构建军事术语之间的语义关联。基于该知识图谱可以将搜索内容解析为实体和关系要素,从而返回图谱中与这些要素所关联的实体,为用户提供更加完整、准确的搜索结果。

3.1 军事术语实体构建

实体构建的核心是命名实体识别,是指从文本数据集中识别出命名实体。军事术语原始数据为半结构化的形式。军事术语的属性主要包括术语名称、英文名称、术语简介以及术语类别等信息。因此,按照军事术语本体的定义,从军事术语的原始数据中能够直接获取军事术语的实体及其属性信息。

3.2 军事术语关系抽取

军事术语之间的关系需要采用专门的方法从原始文本数据中抽取出军事术语本体中定义的各类关系。本文采用基于规则的方法抽取军事术语三元组信息,并使用该三元组信息训练军事术语关系抽取模型,再将该模型应用于军事术语关系抽取任务中。两种关系抽取方法相互补充,不仅保证了军事术语关系抽取结果的质量,而且提高了军事术语关系抽取的效率。

1) 基于规则的方法

军事术语数据主要来源于专家编写的高质量军事术语文本,采用定义属性概念和描述同类概念之间的区别的方式定义释文。由于军事术语定义描述文本中包含了指示术语关系的关键词,并且具有规范的形式,本文针对军事术语文本,定义了军事术语本体中明确的4种关系的抽取规则,共设计了60条军事术语关系抽取规则,并使用这些规则抽取出军事术语概念之间的关系。对于规则抽取生成的数据所存在的错误,本文采用人工筛选的方式校正错误信息。关系抽取规则的正则表达式示例,如表1所示。

表1 军事术语关系抽取规则及正则表达式示例

2) 基于预训练模型的方法

基于规则的方法虽然能够抽取出准确的军事术语关系,但抽取出的关系数量较少,难以满足军事术语知识图谱构建要求。为此,本文采用基于预训练模型的方法构建军事术语关系。基于预训练模型的方法在基于规则的方法的基础上,进一步提高了军事术语关系抽取的效率。

近年来,基于无监督深度学习的预训练模型在自然语言处理领域展现了强大的能力,成为了工业界和学术界的主流研究,在智能搜索、智能问答等方面得到了广泛应用。预训练技术通过使用大规模无标注的文本语料来训练深层网络结构,从而得到一组模型参数,这种深层网络结构通常被称为预训练模型[12]。预训练模型训练过程由预训练阶段和微调阶段组成,在预训练阶段模型基于无标注文本数据采用预训练任务学习通用的语法、语义等知识,在微调阶段采用基于标注的数据微调模型参数,学习领域任务模式,应用到下游任务。

目前,主流的预训练模型主要包括ELMo、GPT、Bert等。ElMo模型利用双向的LTSM编码器可以捕捉到上下文潜在的语义信息,解决传统模型无法解决的一词多义的问题。GPT模型则是利用海量的数据训练出一个生成式的预训练模型,该模型采用改进的Transformer的解码器作为网络架构,用于学习可迁移到多种下游任务的通用文本表示。Bert采用双向的Transformer层,基于双向的Transformer能够学习上下文信息,并且Bert在多种信息抽取任务的数据集上取得了最佳的效果。然而,以上模型都是针对英文的数据集进行训练的预训练模型,并不适用于面向中文的军事术语关系抽取模型。Bert-wwm是谷歌公司在2019年发布的Bert的升级版本,该模型使用全字掩蔽(wwm)缓解在训练前Bert中屏蔽部分Wordpiece分词的缺点,使用中文维基百科等中文语料进行训练的预训练模型。Bert-wwm适用于中文领域的模型的微调任务。为此,本文采用Bert-wwm作为微调的预训练模型。

为能高效预测军事术语之间的关系,本文采用R-Bert的方法抽取军事术语关系。首先对数据中的军事术语实体信息使用Bert-wwm预训练模型对军事术语数据进行编码,然后将Bert-wwm输出的向量信息中的头实体和尾实体的向量进行平均,再进行激活和全连接操作得到最终的表示向量,公式如(1)和(2)所示。

其中,W1和W2为两个随机初始化向量,b1和b2为随机初始化的偏置值。

为了表示头实体和尾实体的上下文语义,模型采用[CLS]表示,[CLS]的向量计算公式如(3)所示。

将得到的头实体向量、尾实体向量和[CLS]向量进行连接操作,得到最终的关系向量。最后,关系向量经SoftMax激活函数得到最终关系抽取结果,公式如(4)所示。

军事术语关系抽取模型的结构如图3所示。

图3 军事术语关系抽取模型

3) 结果分析

基于规则的方法抽取出军事术语关系的数据集分布如表2所示。为训练军事术语关系抽取模型,本文把军事术语训练数据按照8:1:1的比例划分为训练集、验证集和测试集。训练集和验证集用于训练军事术语关系抽取模型。模型的训练采用Adam优化器,设定初始学习率为1×10-4,dropout率设置为0.1,Batch-Size大小设置为16,并对关系抽取的目标函数进行优化,微调出军事术语关系抽取模型。最终,经过测试,军事术语关系抽取模型的准确率为94.11%,召回率为93.95%,F1值为94.03%。

表2 军事术语数据集分布

基于规则的方法构建了一个高质量的军事术语关系三元组数据集,并为军事术语关系抽取模型提供了训练数据。但是,基于规则的方法需要大量的人工构建规则,难以抽取更丰富的军事术语关系。基于预训练模型的方法抽取军事术语关系的准确率达到94.11%,基本达到了基于规则的方法的准确率。采用基于预训练模型的方法进一步处理军事术语原始数据,能够高效地抽取军事术语关系信息,与基于规则的抽取方法形成有效互补。

4 知识图谱存储与可视化

知识图谱的存储可以采用关系型数据库或图数据库。关系型数据库查询不同实体之间关系时存在多个表之间的连接操作,这将降低知识图谱的查询效率。图数据库是一个使用图结构进行语义查询的非关系型数据库,它使用节点、边和属性来表示和存储三元组数据。图数据库可以快速地检索难以在关系数据中建模的复杂结构,查询节点关系的效率高于关系型数据库,并且图数据能够直观地表示实体及其关系。鉴于图数据库的优点以及军事术语知识图谱结构特征,本文使用Neo4j图数据库存储军事术语三元组信息。军事术语知识图谱的可视化展示示例如图4所示。

图4 军事术语知识图谱示例

5 军事术语知识图谱应用前景

本文构建的军事术语知识图谱包含实体46 432个,实体之间的关系98 378个。通过构建军事术语知识图谱能够捕捉军语之间的多元异构关系,从而提高检索系统的语义理解能力,实现更高质量的检索结果,提供智能问答服务。

随着人工智能的快速发展,以预训练语言模型为代表的自然语言处理技术已经在信息抽取、智能对话、摘要生成等通用场景中取得了广泛的应用。尽管预训练语言模型能够学习一般性的词法、语法和句法等知识,但该类模型基于单词之间的高频共现信号学习单词的语义,而军事术语属于领域稀疏词,这使得该类模型无法理解军事术语的语义,从而限制了模型在军事领域的应用。军事术语知识图谱能够为通用预训练语言模型提供实体以及实体间的关联信息,从而帮助预训练语言模型理解稀疏军事术语的语义。基于军事术语知识图谱的表示学习技术能够将知识图谱中字符形式的实体和关系转换为表示向量,通过军事术语本体和预训练任务为预训练语言模型注入军事术语及其关系的语义,从而生成军事领域适用的领域预训练语言模型,促进人工智能技术在军事文本智能处理、重要情报发现等军事场景中的应用。

1) 军事文本智能处理

对于军事文本中军事术语应用的语法、逻辑错误,军队指挥人员往往需要投入大量时间精力发现和纠正错误。针对该问题,指挥人员首先利用预训练模型识别出军事文本中可能的军事术语,将其转化为知识图谱上的一个显式的节点,基于军事术语知识图谱为用户呈现军事术语原本的语义,并根据军事术语本体推理出符合术语时间和因果等逻辑的关联军事术语,以可视化的方式展示。通过对比和军事文本中所使用的军事术语和本体推理所得的术语,发现用法或者逻辑不准确的军事术语,提醒科研人员进行修改,从而辅助军事文本论证写作工作。

2) 重要情报发现

在联合作战的场景下,指挥人员需要处理海陆空以及网络空间的军事情报。大量的情报处理给指挥人员带来了沉重的负担。单纯的人力分析已无法应对信息的爆炸性增长。为预训练语言模型注入军事术语知识,构建军事领域预训练语言模型能够实现情报的自动发现。军事术语预训练语言模型能够利用从军事术语知识图谱中注入的知识自动发现文本中的军事术语,挖掘实体间的关系,通过对照知识图谱中已有的实体关系并依据军事术语本体的公理、函数等信息,完善实体之间的关联,从而推理出军事事件背后的因果或时间逻辑,挖掘出有价值的情报,并提供推理过程明确的逻辑链条。决策人员通过复盘推理过程理解模型的推理逻辑,一方面能够审视推理结果的正确性,另一方面能够启发决策人员的思考,从而辅助战场决策。

6 结束语

本文阐述了基于本体的军事术语知识图谱构建方法。在分析军事术语数据特征的基础上,定义军事术语本体;通过对军事术语数据的分析,归纳军事术语抽取规则,并采用基于规则方法和基于预训练模型的方法联合抽取军事术语三元组信息;最后,将军事术语三元组信息存储在Neo4j图数据库中,形成网状结构的知识图谱。该方法依据规范准确的高质量军事术语数据,挖掘军事术语数据中蕴含的丰富的语义信息,为军事术语知识图谱的构建提供参考方案。

| 作 者:黄伟春, 肖刚, 杨健, 袁皓

| 责 编:胡前进

| 审 核:张培培

声明:本文来自智汇杰瑞,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。