本文发表于《指挥信息系统与技术》2024年第2期
作者:赵晓星,李圣龙,邓克波,潘仁前
引用格式:赵晓星,李圣龙,邓克波,等 .多维军事信息搜索推荐技术[J].指挥信息系统与技术,2024,15(2):70-75.
简介
现代战场形势瞬息万变,快速精准的信息服务对指挥员作业意义重大,因此搜索推荐系统成为指挥员敏捷获取信息的重要工具。为提高指挥员工作效率以及基于复杂军事场景需求,提出了一种多维军事搜索推荐技术。在传统推荐算法基础上,结合军事数据特征改进了序列推荐算法,同时融合了知识图谱推荐算法和订阅推送机制。应用实例表明,该技术在典型战场场景下使用效果良好,具有可行性。
0 引言
人工智能时代中的专业信息系统建设离不开数据支撑,搜索引擎作为基础信息检索工具更是必不可少,搜索引擎将合适信息推荐给用户成为搜索的关键。军事领域中,搜索引擎作为大数据建设的基础核心,对发挥数据优势、赋能军事应用和提升军事应用效率具有重要意义。实际应用中,仅依赖搜索功能则面临以下4个方面的问题:1)搜索引擎虽然可根据用户输入信息返回搜索结果,但获取信息方式单一,一次应用场景中用户可能需要多次搜索才能获取完整需要信息,导致信息获取效率低下;2)军事用户使用场景多变,相同搜索输入在不同使用场景下的不同用户的信息获取需求差异较大;3)依赖用户输入的信息来检索相关内容,无法突破用户固有的认知限制,导致用户得到的信息可能不全面;4)军事领域中的大量数据具备时空特性,仅靠用户搜索行为难以主动获知动态更新的数据信息。
为解决上述问题,本文提出了一种多维军事搜索引擎推荐技术。该技术面向军事领域中不同特征的数据,结合用户身份特征和使用场景需求,融合调度序列推荐、基于知识图谱推荐和订阅推送等算法,从而提供搜索推荐服务。
1 多维搜索推荐算法
向军事搜索引擎推荐任务需求,本文设计了多维信息推荐流程。多维信息推荐流程如图1所示,其中,LSTM为长短时记忆;GNN为图神经网络。该流程包含用户搜索意图分析、多维推荐策略调度和推荐结果排序组织3个步骤。其中,用户搜索意图分析是搜索推荐的基础,包含对用户信息、场景信息和搜索请求等输入的量化处理过程;多维推荐策略调度是整个推荐过程的核心环节,以用户搜索意图分析结果为输入,选择不同的搜索策略从可选信息库中匹配相关信息,得到拟推荐结果列表;推荐结果排序组织是对拟推荐结果列表进行业务规则筛选过滤,使用定制化排序策略打分,最终获得排序结果的过程。
图1 多维信息推荐流程
2 用户搜索意图分析
只有准确理解用户的搜索意图,才能更好地反馈用户需要的信息,因此用户搜索意图分析对搜索引擎十分重要。本文从角色识别、历史行为分析、场景判读和用户输入4个方面来量化用户搜索意图,得到用户使用数据偏好权重。
表1 不同维度下数据偏好权重计算方式
角色识别、历史行为分析和场景判读是从信息类型偏好维度进行量化的,其量化结果用于搜索引导提示、信息检索及排序过程。需说明的是,用户输入是最直观反馈用户信息需求的重要因素,可根据不同推荐策略确定用户输入是直接匹配、获取同义词后匹配或者向量化后匹配。若用户输入是通过搜索提示词选择时,则直接使用用户输入匹配推荐结果;若用户输入为直接录入时,则经过纠错补全和同义词补充等处理后匹配推荐结果;若采用基于知识图谱的推荐策略时,则可将用户输入向量化后匹配推荐结果。此外,时间和空间信息将也作为查询信息,一并提交至搜索推荐引擎。
3 多维推荐策略调度
与互联网常用推荐引擎相比,军事搜索引擎涉及的数据范围较广且特征多样,因此军事搜索推荐系统需利用不同数据场景下的信息推荐技术。
从数据模态角度分析,数据包括领域内结构化数据和非结构化数据。其中,领域内结构化数据由标准采集工具或业务系统产生,数据结构较明确,多存储于关系型数据库表中;非结构化数据来源于互联网或业务系统内部,多存储于大数据平台,包括文本、音视频和图像等数据。
从数据更新频率角度分析,数据包括静态类数据、业务类数据和实时流式数据。其中,静态类数据主要以基础要素信息数据为主,如部队编制、装备信息和设施情况等数据,该类数据较稳定且更新频率较低;业务类数据是用户日常作业过程中生成的数据,更新时间有一定规律,如部队值班信息数据、军事活动规划和部队巡逻任务等;实时流式数据主要包括空情、海情和陆情等态势类信息。
为充分发挥数据潜力,最大程度将有用信息推荐给用户,本文设计了多种推荐策略,并给出了不同场景中推荐策略选择优先级。
3.1 协同过滤
协同过滤指利用其他用户或词条信息来对目标用户和目标词条信息进行关联的一种推荐算法,通过物品和用户的相似度,协同过滤衍生出物品协同过滤和用户协同过滤,是目前推荐系统中广泛应用的推荐算法之一。协同过滤旨在通过已有的用户-词条关联信息来推测新的用户-词条关联信息,其基本思想是相似性,可采用余弦相似度计算用户和词条相似性。
3.2 基于内容模板的推荐
基于内容模板的推荐是根据词条间的内在相关性进行推荐的一种策略。基于军事行业数据体系标准和业务规则,构建适用于军事领域的内容模板推荐策略,通过用户搜索输入匹配内容模板,并根据内容模板获取推荐信息。例如,根据我方部队内容推荐模板,用户在搜索我方部队信息时可推荐部队部署位置和部队人员等信息。
内容模板是对专家知识、用户使用习惯和信息间特定关系的体现,根据专家知识形成初始内容模板,在使用过程中模板可基于用户需要动态调整或自适应调整。
3.3 序列推荐
序列推荐是通过用户的历史行为来预测用户接下来可能感兴趣的内容的一种推荐方式。该方式注重用户行为的时序性,认为用户的最近行为序列对预测用户未来的行为有重要影响。
协同过滤和基于内容模板的推荐是以静态方式建模用户和信息的交互,捕获的仅是用户的广义喜好;序列推荐则是将用户和信息的交互建模为一个动态序列并且利用序列的依赖性来捕捉当前和最近用户的喜好。序列推荐具有以下优势:1) 用户的业务行为本质上是序列相关的,如在一次敌情处置活动中需进行情报信息查询、相关法规查询和处置措施查询等;2) 事件的发展演化是动态变化的,这种动态性可被序列推荐算法捕获;3) 用户和信息的交互在特定序列化上下文中产生,序列推荐将历史行为序列作为上下文来预测后续行为,可避免重复推荐或相似推荐,使推荐结果更加多样化。
序列推荐算法种类较多,其中常用算法是LSTM算法。LSTM是一种特殊的循环神经网络(RNN),已广泛用于对序列数据进行处理,其核心思想是在普通的RNN单元中增加门的概念来控制RNN单元。与马尔科夫链序列预测相比,LSTM算法是一种端到端的学习算法,可直接从原始数据中学习特征表示而无需手工设计。
3.4 基于知识图谱的推荐
基于知识图谱的推荐包括基于路径的推荐和嵌入推荐2种方式。
基于路径的推荐指利用知识图谱中实体间路径的连通模式进行推荐,基本思想是考虑到实体之间的连通相似性,并根据实体之间的连接关系计算节点相似性,进而提升推荐效果。将知识图谱视为一个异构信息网络,根据节点之间的连通性进行信息推荐。
嵌入推荐是利用向量空间相似性进行推荐,其原理如图2所示。嵌入(embedding)指利用一个低维稠密的向量表示一个对象。推荐系统中的嵌入具有以下重要性:1)样本特征向量不利于深度学习算法,而深度学习模型均由嵌入层负责将高维稀疏特征向量转换成低维稠密特征向量;2)嵌入本身就是重要的特征向量,与机器学习特征工程产生的特征向量相比,嵌入的表达能力更强;3)计算用户和实体的向量相似度,将相似度分值作为推荐系统的召回策略,适用于海量数据中高效获取推荐信息。嵌入推荐原理如图2所示,其中,ReLU指修正线性单元,是一种深度学习中常用激活函数,简化神经网络计算量。softmax指归一化函数,将实数值转化为[0,1]之间的概率值。Top N指相似度分值最高的前N个结果。
图2 嵌入推荐原理
3.5 订阅推送
订阅推送指用户选择接收特定类型的信息或内容,并通过订阅机制将这些信息推送给用户,这种推送通常是实时的或近实时的,因此用户可随时获取最新的更新和内容。
军事领域中,在用户信息需求明确的条件下,用户可直接订阅对应数据信源,订阅成功后,该数据信源可在数据更新时直接将最新数据推送给用户,这在空情和海情等实时信息推荐中尤为重要。订阅推送机制提供了一种个性化和即时获取信息的方式,以推送方式帮助用户及时获得数据更新内容。
3.6 推荐策略调度
表2给出了不同推荐策略的优缺点及适用场景。
表2 不同的推荐方法特点
军事搜索引擎中,可将多种推荐算法有机结合,根据数据业务特征、模态特征和更新频率特征,自动调度默认适配的策略并进行推荐,也可根据用户偏好和场景需求主动选择推荐策略。
图3给出了常用推荐策略调度算法流程。针对非结构化数据,如文本、图像、音频和视频等数据,通常采用基于知识图谱的推荐,推荐信息更丰富且可解释性更强;对于实时类数据,如空情和海情等态势信息,通常采用订阅推送机制,可有效避免重要信息的遗漏;针对更新频率较低的基础要素数据,通常使用协同过滤和基于内容模板的推荐等简单高效的算法;对于更新频率相对稳定的业务类数据,如事件和值班活动等数据,通常采用基于序列推荐算法和基于内容模板的推荐,其推荐结果避免了重复,可较好满足使用场景需求。
图3 常用推荐策略调度算法流程
4 推荐结果排序组织
系统集成了多种推荐策略,实际应用中可先根据数据模态、数据更新频率和推荐场景有选择地调用推荐策略以获得备选推荐结果,再对备选推荐结果排序组织,最后得到推荐结果。排序组织过程包括以下4个步骤:
1)推荐结果去重与组织。在初步得到的推荐结果中,对每一个数据项出现的次数进行统计,并将次数作为数据项初始分值,其中重复出现的数据项仅保留1个。对于描述同一事物的数据项进行属性合并,选择其中最高次数作为其初始分值。
2)从时效性、相关性、重要性和新颖性4个维度进行评分。
使用上述4个维度分值的均值对初始分值进行加权。
3)从用户数据偏好权重进行分值加权。通过用户搜索意图分析得到了用户数据类型偏好权重值,利用该权重值对拟推荐结果的评分进行加权计算。
4)基于用户反馈的分值调整。
根据计算的推荐结果分值对拟推荐结果进行排序,将其中分值最高的前10个结果反馈给用户,并根据用户对推荐结果的点击次数动态调整搜索结果排序分值及顺序。
5 推荐算法试验
5.1 试验数据集和环境
为提升军事领域搜索引擎信息获取效率,本文对上述推荐算法的有效性进行了验证。军事领域搜索引擎依托知识图谱进行数据组织管理,同时使用Elasticsearch作为核心引擎。搜索引擎包含军事领域装备、设施、组织、人物、事件、环境、值班和行动等类型下的实例数据,并引接空情、海情和陆情等信源数据。常态化运行环境下,实例数据有500万条,实例关系数据有700万条,索引数据有100万条。
5.2 试验流程和评价指标
归一化折损累计增益(NDCG)是信息检索系统在评价不同排序方法效果时常用的评价指标,可用于评价搜索引擎结果相关性,因此本文采用NDCG值作为推荐算法评价指标。本文构造多种数据场景的测试用例,分别采用多维推荐算法、单一推荐算法和不使用推荐算法在3个节点(Top1、Top5和Top10)上计算NDCG值。
5.3 试验结果分析
不同推荐策略下NDCG值及其平均响应时间如表3所示。由表可见,在推荐结果相关性方面,多维推荐算法比不使用推荐算法的NDCG值平均提升了71.5%,且 Top1节点上指标提升近90.5%,且其推荐效果优于使用单一固定推荐算法。在推荐结果响应时间方面,序列推荐和基于知识图谱的推荐的耗时较长;基于内容模板的推荐和协同推荐(协同过滤)耗时较少且效率更高;多维推荐算法由于融合了多种推荐策略,故响应时间居中。需说明的是,由于订阅推送采用主动推送数据给用户的机制,故无需考虑响应时间。
表3 不同推荐策略下NDCG值及其平均响应时间
6 结束语
随着我军现代化信息体系建设的开展,军事领域越来越重视数据的采集、汇聚和整编等工作,海量多模态军事数据逐渐积累并赋能军事应用。针对信息准确获取需求,充分考虑了军事数据多模和场景多样的特点,并基于数据的更新频率和模态特征,研究了使用不同推荐策略进行数据推荐的方法。实际应用表明,面向多种军事数据推荐场景,根据不同推荐策略特点,对不同类型数据有选择的使用可以达到较好的推荐效果,同时不同推荐策略的组合也有助于解决冷启动和信息孤岛问题。
声明:本文来自防务快讯,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。