目前,绝大多数知识图谱研究针对实体知识图谱,主要以实体(特别是人名)为基础,面向事件知识图谱研究的语料构建和研究方法还处于探索阶段。特别是,中文事件知识图谱的研究几乎是空白。相对于实体知识图谱,事件知识图谱具有明显的语义表达优势,有利于知识推理。本报告将主要从事件抽取、事件关系抽取、事件/事件关系可信度计算、事件知识图谱构建技术和事件知识图谱推理等五个方面系统深入分析事件知识图谱构建研究相关的国内外研究现状、存在关键问题以及研究思路。
1.引言
近几年,随着计算能力的大幅提升和深度学习方法的广泛应用,人工智能得到了广泛关注和迅猛发展,被称之为“第四次工业革命”。作为引领未来的战略性技术,围绕人工智能的全球竞争日益白热化,世界主要大国都把发展人工智能作为提升国家竞争能力、维护国家信息安全的重大战略,加紧出台各种规划和政策,力图在这新一轮的国际竞争中掌握科技主导权。2017年7月8日,国务院颁布了《新一代人工智能发展规划》,指出人工智能发展已进入新阶段,将成为国际竞争的新焦点和经济发展的新引擎。算法和知识是人工智能的两大核心技术,因而如何获取大规模、高质量、强代表性的知识就成为人工智能发展的两大关键之一。十九大报告中更明确提出,一定要“推动互联网、大数据、人工智能和实体经济深度融合”。
与此同时,随着移动互联网的不断普及和自媒体的爆炸式发展,人类社会已进入大数据时代,互联网信息呈指数级增长。据市场调研机构国际数据公司(IDC)的数据显示,2017年全球的数据总量达到17.8ZB(1ZB相当于10万亿亿字节),其中中国数据量占全球的21%左右。另外,据中国互联网络信息中心(CNNIC)的报告显示,截至2017年12月我国互联网用户规模达到7.5亿人。如何从互联网大数据中获取知识,并应用于智能信息处理,已成为人工智能一个重要的研究方向。
作为知识表示的一种代表性技术,知识图谱描述客观世界的概念、实体、事件及其相互关系,已成为构建从数据=》信息=》知识=》智能的“金字塔”的重要途经。如果说知识是人类进步的阶梯,那么知识图谱就是人工智能进步的阶梯,是机器实现理解的知识来源。从本质上讲,知识图谱是一种语义网络,即基于图的数据结构,由节点和边构成。其中,节点代表现实世界中存在的对象,边代表对象与对象之间的“关系”。知识图谱就是把各种不同的信息连接在一起而得到的一种关系网络,提供了从“关系”的角度去深入分析问题的能力。
目前,如何从互联网大数据中获取知识并构建知识图谱已成为自然语言理解领域的研究热点和核心之一,是实现人工智能从计算智能=》感知智能=》认知智能的必由之路。不过,绝大多数知识图谱研究面向实体知识图谱(即节点是实体),相关技术已趋成熟,且已得到比较广泛的应用。例如,FaceBook、Google、百度、阿里巴巴等国内外公司都在积极构建自己的实体知识图谱。这些实体知识图谱的优点是构建相对简单、不需要深层语义理解,缺点是实体信息脱离具体的语境存在、存在语义信息的片面性,从而缺乏足够的深层语义信息。例如,很多实体存在多义性,在不同的语境中有不同含义,这在实体知识图谱中难于体现。
实际上,语义理解的知识来源除了实体以外,还有更重要的与实体相关的行为、状态、转换等具体动作信息。作为一种更高层次的语义单位,事件表达了特定人、物、事在特定时间和特定地点相互作用的客观事实。比实体相比,事件能够更加清晰、精确表示发生的各种事实信息。因此,和实体知识图谱相比,事件知识图谱具有更深入、丰富、精确的语义表示能力,可广泛应用于各种知识的学习、推理和理解。
为了构建事件知识图谱,首先必须开展基于互联网大数据的事件抽取和事件可信度计算研究,为构建事件知识图谱的节点服务;其次,探索基于互联网大数据的事件关系抽取和事件关系可信度计算研究,从海量文本中抽取事件间的各种关系,为构建事件知识图谱的边服务;再次,进一步研究具有可信度的事件知识图谱构建方法,构建具有可信度的事件知识图谱;最后,研究基于可信事件知识图谱的推理方法。图1就是一个“金正男遇害”话题的事件知识图谱(部分)实例,该图谱展示了“金正男遇害”话题早期的发展过程。其中,圆圈表示事件,边表示事件关系。由于篇幅关系,图中省略了每个事件的事件类型、事件的参与者、发生时间、发生地点、关系的可信度等具体信息。
图1 一个事件知识图谱的实例
相对于实体知识图谱构建,事件知识图谱构建研究目前还处于起步阶段,相关研究很少。事件知识图谱构建相关研究不仅具有理论意义,而且具有应用价值,可以广泛应用于情报分析、信息检索、自动文摘和舆情分析等多个应用领域。例如在情报分析中,可以帮助情报分析员从海量信息中快速获取所关注的某个话题(如:第五代战机研发)相关的事件知识图谱,不仅为情报分析人员节省大量时间减轻工作量,而且更快速、高效和全面。
本文主要从事件知识图谱构建研究涉及的事件抽取、事件关系抽取、可信度计算、知识图谱构建和知识图谱推理等五个方面展开分析。
2.事件抽取
事件抽取不仅需要抽取文本中的事件实例并识别其类型,而且需要为每个事件实例抽取所涉及的论元并赋予相应的角色。下面根据ACE定义,列出了本文所涉及的部分基本概念:
实体(Entity):对象或对象的集合,例如人名、交通工具和地名等。
实体实例(Entity Mention):实体在具体文本中的每次提及。
事件(Event):在真实世界中已经、可能或将要发生的事情,例如出生、地震和车祸等事件,一般包括时间、地点和人物等角色。
事件实例(Event Mention):在文本中描述一个事件的句子或子句,例如句子“张三1973年出生于江苏苏州。”就是一个类别为“出生事件”的事件实例。
事件类型(Event Type):事件的类别,例如“出生”、“死亡”和“攻击”等。
触发词(Trigger):用于标识事件的谓词(一般为动词和名词),又称为锚,是事件的基本要素之一,例如“生于”、“出生”等就是出生事件的触发词。
触发词实例(Trigger Mention) :触发词在句子中的提及,例如在句子“张三出生于苏州。”和“李四出生于2012年。”中的2个“出生”就是触发词“出生”的两个实例。
论元(Argument):和事件相关的实体实例,是构成事件的基本要素之一。
角色(Role):表述论元和事件的关系,例如出生事件中的角色有人物、出生时间、出生地点等。
事件抽取一般分为2个步骤:触发词抽取和论元抽取。前者一般可分为触发词识别(即从文本中抽取触发词实例)和触发词分类(即赋予每个触发词实例一个事件类型);后者一般可分为论元识别(即为每个事件识别所涉及的论元)和角色指派(即赋予每个论元相应的角色)。
2.1 英文事件抽取
英文事件抽取研究开展较早。早期研究偏重于模式匹配方法,例如Riloff(1996)、Yangarber等(2000)、Stevenson等(2005)、Patwardhan等(2009),近期研究偏重于机器学习方法,大致可分为两个类别:句子级事件抽取和文档级事件抽取。句子级事件抽取方法只考虑各种句子内部信息,基本不考虑篇章级别信息。例如, Grishman等(2005)在ACE 2005评测的基础上,考虑了多种类型特征,采用机器学习方法实现了一个英文事件抽取系统。文档级事件抽取不仅考虑句子内部信息,而且考虑了各种文档级别信息。例如,Ji等(2008)把主题相似的文档聚合成类,采用规则方法,实现了句子级和文档级的事件和论元的一致性。Patwardhan等(2010)提出了一个事件提取模型,该模型由句子级事件识别模块和角色填充模块组成,并采用一个概率模型把两模块有效统一联合作出最后的决策,实现了文档级事件抽取。Liao 等(2010)采用跨事件的一致性信息,提高事件识别的性能。Hong等(2011)根据实体类别的一致性预测事件,并采用推理方法提高事件抽取中论元识别的性能。Lu等(2012)提出了一个基于半监督马尔科夫随机场的结构优先模型,并用于事件抽取Huang等(2012)针对单一特征信息存在的局限性,提出了结构化特征的表示方法,从词汇、篇章和角色分布等三个不同角度深入探索了各种特征组合和表示方法,从而体现不同论元、事件和角色之间的关联性。
2.2 中文事件抽取
与英文事件抽取相比,中文本身的语言特点使得中文事件抽取更加困难。从研究方法而言,中文事件抽取方法以引用英文方法为主。虽然很多方法和特定语言无关,但是从语言本身的角度来看,中文具有不同于英语的特点,研究适合中文的事件抽取方法成为当务之急。
目前,中文事件抽取研究主要从特征选择和触发词扩展两个方面入手。在特征选择方面,Chen等(2009b)根据中文触发词可能位于某个词内的特点,从词汇、句法、语义和相邻信息等多个角度抽取各种特征,成功用于中文事件抽取。Wang(2012)把各种特征,如项频度、句子位置和长度、标题词覆盖率、语义角色标注等组合起来选择信息化最大的句子作为事件的候选。Chen等(2012)把字符、语义角色、触发词概率、零指代、触发词一致性和论元一致性等各种特征用于中文事件抽取。
在触发词扩展方面,Chen等(2009a)采用自举方法分别在英文和中文语料上进行事件抽取的联合训练,在跨语言事件抽取中,利用联合训练提高中文和英文事件抽取性能。Qin 等(2011)利用“同义词词林”来扩展中文事件触发词。Li等(2012a; 2012b)根据中文词组的组合语义学原理,分别从动词构词结构和形态结构两个方面入手,识别在训练语料中未出现过的未知触发词,并结合篇章级一致性进行事件识别。Li等(2013)探讨了关联事件和论元语义对论元抽取的作用,并提出了基于篇章结构理论的论元和角色的推理方法,把中文论元抽取和角色分派性能F值分别提高了6.3%和4.8%。Li等(2016)提出了一个基于最小监督的事件抽取模型,从文档相关性、语义相似性和形态结构等三个不同视图入手,采用自举方法实现协同学习,性能F值大幅提高了12.8%。
2.3 基于深度学习的事件抽取
随着深度学习的不断发展,大量深度学习技术被应用于事件抽取研究。例如,Chen 等(2015)使用卷积神经网络模型(CNN)自动抽取各种有用特征,帮助事件抽取任务。在此基础上,Nguyen 等(2015)利用实体类型模型来帮助事件识别,提出了一种新的离散CNN来提升事件识别模型效果。相对于CNN,循环神经网络模型(RNN)能够更好建模文本上的序列信息,从而更好进行事件抽取。例如,Feng等(2016)利用一个基于RNN的模型去抽取序列信息,并使用一个CNN模型来对触发词进行预测。由于没有使用额外的特征,该模型语言无关,在多种语言上收获了很好的效果。
由于联合模型被证明比传统的基于特征的模型更有效,所以近几年有很多研究关注利用联合模型来解决事件抽取问题。例如,Yang等(2016)提出了一种联合因子图模型,用来学习每个事件内部的结构化信息和同一个篇章内的不同事件之间的关联性。Nguyen等(2016)提出了一种基于RNN的模型,用于联合训练事件检测和论元抽取。除了词向量和实体类型向量之外,他们还利用二元依存向量表示词之间可能的关系,而句子表示被加入一个RNN模型,用来获取上下文信息。在预测阶段,触发词的预测同时参考基于论元的预测,并利用记忆网络模型更新相关的参数。受此启发,Liu等(2017)基于注意力机制,利用事件的论元信息帮助事件抽取,并获得了很好的效果。Wang等(2017)提出了一个基于神经网络的联合模型,对于事件抽取中的不同子任务进行联合学习,从而提高事件抽取效果。
2.4 存在的问题
事件抽取相关研究开展较早,进展显著。不过,目前依然存在以下问题:
1)中文事件抽取研究还处于起步阶段。从研究方法而言,中文事件抽取方法还是以引用英文方法为主。虽然很多方法和特定语言无关,但从语言本身的角度来看,中文具有不同于英语的特点,研究适合中文的事件抽取方法是当务之急。
2)事件的触发词和论元等事件元素密切相关,相关研究还欠深入。在识别事件触发词的时候,不仅需要考虑事件触发词本身及上下文信息,还需要考虑事件其他元素(如论元等)对于事件触发词的影响。
3)事件本身具有离散性、跨篇章性,目前跨篇章的事件抽取以及融合研究几乎空白。
4)互联网上的事件类型多种多样,面向互联网大数据的开放域事件抽取研究几乎空白。
3.事件关系抽取
作为信息的一种重要表述类型,事件是特定的人或物在特定的时间和地点发生相互作用的一种客观事实。文本中事件就是这一事实诉诸文字的呈现形式,多见于新闻报道、评论或博客。通常,事件的发生与发展往往与其它外在事件有着千丝万缕的逻辑关系。例如,事件“袭击”往往与“死亡”、“摧毁”、“伤害”共现在同一语言环境中,且存在强烈的因果关系。所谓事件关系,即事件与其相关事件相互依存和关联的逻辑形式。事件关系能将离散于文本中的事件相连接,形成事件关系网络和事件发展的拓扑脉络。因此,分析事件脉络对当前大规模的舆情信息分析与处理具有重要的应用价值,包括关联事件聚类、面向新闻事件的关系网络构建以及突发事件的推理和预测等。
作为信息抽取的一项新的研究课题,事件关系检测与传统的话题检测和事件抽取密切相关。传统的话题检测可以认为是粗粒度的事件关系检测任务,即属于同一话题下的事件具有关联性,不过这种关系是比较弱的。事件抽取是事件关系检测的基础,即针对非结构化的文本,需要通过事件抽取从含有事件信息的文本中抽取出事件内容,形成事件流,并在此基础上进行事件关系检测研究。
事件关系检测主要包括相关事件识别和事件关系类型判定。其中,事件关系识别通过解析文本结构和语义特征,对文中描述不同事件的文本片段给出有关或无关的判断结果,而事件关系判定需要对关联事件给出明确的语义关系或逻辑关系标签(如因果、时序、扩展、对比等关系标签)。下面将事件关系的相关研究分成两条脉络,一是针对事件同指的研究(语义关系),主要研究多个事件表述是否指向现实社会中的相同事件;二是针对事件逻辑关系的研究,当前的研究大多是针对某一特定事件关系进行分析与资源挖掘,如时序关系、因果关系等。
3.1 事件同指研究
相比实体同指研究,事件同指研究较少,主要受限于对应语料资源的匮乏。随着ACE2005语料事件部分的发布、SemEval与TAC KPB Track相关评测任务的展开,出现了部分事件相关资源,为事件抽取及同指等任务的研究奠定了基础。需要强调的是,ACE2005和KPB2016和2017语料都包含了对应的中文部分。目前事件同指相关研究可以分成四类。
首先,与实体同指消解类似,可将事件同指消解看作一个分类问题,通过对事件本身、事件对(簇)特征的描述来判别给定事件集是否存在同指关系。例如,Liu等(2014)在特征工程的基础上,通过引入WordNet、FrameNet等外部知识库,从事件的触发词和论元之间抽取出一系列的特征集合和传播信息,大幅提高了事件同指消解的效果
其次,上述分类方法假设实验训练样本已知,而事件同指的标注需要大量人工参与,目前相关研究中受到广泛认可的事件资源只有ACE2005、KBP2015~2016系列,如何从大量未标注的语料中自动提取事件同指链受到了众多学者的广泛关注,开展了基于聚类方法的事件同指研究。例如,Bejan等(2014)基于非参贝叶斯模型,分别提出了三种新的聚类算法:基于混合狄里克雷分布的特征选取模型、基于MIBP(Markov India Buffet Process)的无限特征模型以及基于因果隐马尔科夫模型的事件同指混合模型,并在ACE2005和ECB语料上分别进行了实验。
再次,事件同指性能受事件检测、事件类别识别等前导任务的影响巨大,随着研究的深入,各种多任务联合学习方法被不断提出。例如,Lu等(2017)提出了一个联合事件检测、待消解事件项识别和事件同指三个子任务的事件消解方法,解决了级联过程中广泛存在的错误传播问题。Choubey等(2017)提出了将文档内事件同指和文档间事件同指进行联合学习的策略。
最后,基于篇章的事件同指消解虽然在一定程度上能够解决不同的事件表述之间所带来的歧义问题,经过消解后部分事件所包含的信息可能较少,通过跨篇章同指消解,不仅能够在帮助不同篇章中的事件表述,同时也能够丰富事件本身所包含的信息。例如,Bejan等(2014)针对跨篇章语料不足问题,标注了Event Coreference Bank(ECB,第一个跨文档的事件同指语料库),在此基础上提出了一套无监督的Bayesian方法。Cybulska等(2014)指出,ECB语料缺乏足够的词汇差异度,过分简化了跨文档事件指代消解任务。鉴于此,他们对ECB进行了扩充,发布了ECB+语料。基于ECB及ECB+语料,各种扩展的贝叶斯模型被提出来,代表性的有非参数贝叶斯模型(Bejan等, 2014)、层次贝叶斯模型(Yang 等, 2015)。
3.2 事件逻辑关系研究
当前事件逻辑关系检测研究受限于语料,主要针对特定关系类型进行。随着TimeBank和EventStaus等语料的发布,事件时序关系检测研究最为丰富。此外,随着英文RED(Richer Event Description)语料于2016年正式由LDC对外发布,对英文事件逻辑关系检测研究产生了极大的推动力。但目前还未看到中文有关事件逻辑关系的标注语料。至今为止,事件关系检测所采用的方法主要包括:模式匹配法、特征分析法、规则推理法和基于深度学习的方法。
首先,模式匹配法借助事件特征,根据人工定义的模板,对文本中符合模板的事件关系进行抽取。作为事件中的核心词语,事件触发词是决定事件类别的关键特征。事件关系间的模式匹配往往基于对触发词的关系研究,即借用触发词间的关系,识别事件间的关系。例如,Chklovski(2005)定义了6种时序关系:similarity、strength、antonymy、enablement、happens和before,利用人工收集的词-句匹配模板抽取包含这6种时序关系的事件对,并将抽取结果形成“VerbOcean”的知识库。不过,由于人工定义的模板往往受数量限制,这造成关系检测的召回率较低。Torisawa(2006)首先使用非限定分布策略挖掘具有蕴含关系的动词对,然后结合准模板方法对已抽取动词进行过滤,较好解决了噪音信息引起的低准确率问题。
其次,作为经典特征分析法, Lin等(2001)提出了一种结合Harrs分布假设和建立依存树思想的无监督方法,称为DIRT算法。该算法将所有事件构成依存树形式,树中每条路径代表一个事件,路径节点表示事件中的词语,若两条路径词语相同或相似,则它们代表的事件相同或相似。同时,将满足以上条件的触发词作为扩展关系的检测线索。此外,随着研究的不断深入,各种手工设计的特征,包括时态、极性、情感、事件类别、从WordNet这样的外部资源获得的词法和形态等特征、动词间的关系特征等也被陆续提出来( Souza等,2013;Chambers 等,2014;Mirza等,2014;Mirza等,2016;)。
再次,规则推理法主要通过总结类似“if-then”的规则集合,实现事件关系的有效检测。其中,规则制定大多基于区间代数法,缺点是该方法在训练集较少的情况下存在一定的局限性。鉴于此,Mani等(2006)运用扩展后的规则集合训练最大熵分类器,实现了半监督的事件关系分类,提高了准确率。Tatu(2008)基于顺序逻辑,定义了用于事件关系判断的证明定理,得到了丰富的推理规则,并利用这些规则判断时序关系。
最后,深度学习方法主要借鉴NLP其他领域,特别是实体间关系抽取的相关研究成果,结合事件的特点展开。例如, Ebrahimi 等(2015)和 Xu等(2016)基于最短依存路径构建了各种神经网络,获得了目前最好的实体间关系的抽取性能。在此基础上,Cheng等(2017)将依存路径借助双向LSTM进行表示,Choubey等(2017)提出了一个序列化模型进行句内事件时序关系的识别,并配合BiLSTM工作,获得了最佳的性能。
3.3 存在的问题
相对于事件抽取,事件关系抽取开展较晚,相关研究还不够深入:
1)受制于资源匮乏,特别是针对中文的事件及事件间关系的标注语料匮乏、标注体系不统一,相关研究难以深入开展。
2)事件本身具有离散性、跨篇章性、无显式线索等特点,使得无法直接利用语言学特征进行事件关系的判断。因此,需要从统计学入手,进行大规模数据识别,挖掘相关线索,形成基于统计策略的事件关系推理机制。
3)事件关系检测不能仅仅考虑字面上的语义关系,还要根据统计信息估测关系的可信度。这在现有的事件关系研究中尚未引起重视,相应的逻辑体系样本还未构建,无法支持针对事件关系逻辑可信性的机器学习。
4.可信度计算
相关可信度计算主要局限于事件可信度计算,事件关系可信度计算极少。
近十年来,事件可信度判别作为信息抽取领域中的一项基础研究工作,吸引了学术界越来越多的关注与重视。2009年至今,生物医学自然语言处理国际评测会议(BioNLP Shared Task)、计算自然语言学习国际会议(Computational Natural Language Learning,CoNLL)和词汇计算语义学国际会议(Joint Conference on Lexical and Computational Semantics,*SEM)先后将事件可信度判别作为其评测任务。由于提供了多种类型的标准数据集,事件可信度判别研究得到了很大的推动与发展。
不过,在表示模型和计算方法层面,相关研究仍处于探索阶段,基本处于句子级别,即以事件所在句子的词法、句法和语义结构等特征为主建立模型,通过识别表示事件可信度类型的关键词及其作用范围,来表示事件的可信度。基于此,传统事件可信度判别方法一般分为两个步骤:触发词检测和覆盖域界定。前者识别文本中明确表示非真实性或不确定性语义的词或短语;后者判断触发词在句子中的语法或语义作用范围,即将落入该范围的事件判断为非真实性或不确定性事件。
4.1 触发词检测
触发词检测研究主要包括:基于词表(词典)、基于统计和基于序列标注。
基于词表(词典)的方法严重依赖于构建和扩充触发词词表(词典)的算法,特别是在识别触发词时,需严格匹配命中词表或词典中的词项,因而词表或词典的质量决定了触发词检测方法的性能。例如,Kilicoglu等(2008)通过从WordNet和生物医学专业词表中手工提取不确定性概念和事实性概念之间的语义和词法关系,将之添加到词表中,用来判断句子中的不确定性事件。
基于统计的方法重点在于如何获取各种有效的词法、句法、语义等特征,并将这些特征进行筛选或融合,从而获得有效的局部或全局特征。Light等(2004)最早采用此类方法,以词为特征,采用支持向量机判断医学论文摘要中的句子是否包含不确定性事件。在此基础上,Özgür等(2009)引入了多种词法、句法特征进行融合,包括词干、词性、位置、依存关系、相邻词及关键词共现等特征。Eckle-Kohler(2016)从多个角度提取语义特征,依据真实性强度对情态动词进行分类,从而分析其所修饰子句的事实性或确定性。
由于触发词可能是由多个连续单词构成的序列,也有研究采用基于序列标注的方法识别触发词。例如,Tang等(2010)采用基于条件随机场模型的序列标注方法和大规模基于边界模型,以词性、命名实体和组块等作为特征,取得了较好性能,在CoNLL2010-Task1B(生物医学文献数据集)取得了最好性能,F值达到86.4%。不过,该系统在CoNLL2010-Task1W(Wikipedia数据集)上仅仅取得了55%的性能F值。由此可见,该方法在不同领域中表现出的性能差距较大,严重依赖于领域内的文本特征,跨领域的自适应性相对较差。Li等(2014)和Zou等(2015)根据中文词汇与篇章特点,利用组合语义学与篇章一致性探索了中文触发词识别。
4.2 覆盖域界定
早期的覆盖域界定研究通常采用基于句法树或模版的启发式规则,通过寻找和提取触发词与其覆盖域中某些元素的关系,生成模版或规则,包括句法关系、实体关系或浅层语义关系等。例如,Huang等(2007)首次提出在句法树结构上,利用启发式规则判定句法树结点是否处于某个否定触发词的作用范围之内。不过,这种方法往往针对某一类触发词的覆盖域识别任务比较有效,可扩展性差,很难延伸到其它类别触发词的覆盖域识别。为了克服该缺点, Apostolova(2011)从BioScope语料库中自动抽取出一套“词-句法”模式集合,并利用这个模式集合识别覆盖域,获得了与机器学习方法相当的性能。综上所述,基于启发式规则的方法的优点在于准确率较高,缺点是针对具体任务,需要专家参与规则或模板的制定,人工开销代价较大。
随着BioScope等标准语料库的发布,基于机器学习的方法逐渐成为热门(Morante等2012)。Morante等(2008)首次采用机器学习方法对否定触发词的覆盖域进行识别,该方法依次判断句子中的单词是否落入触发词的覆盖域之内,最后根据标记结果进行后处理,以确保每个覆盖域都是连续的。在此基础上, Morante等(2010)在CoNLL2010评测中采用基于存储算法的分类器,并在浅层句法特征的基础上加入了依存句法特征,获得了CoNLL2010覆盖域界定评测任务的最好性能,F值达到57.3%。Zhu等(2010)和Li等(2010)发现,在语义角色标注中,谓词的作用范围与覆盖域类似,即如果将触发词看作谓词,则覆盖域界定的问题就可以转化为论元标注问题。基于此,提出了一种基于简化的浅层语义分析模型的覆盖域识别方法。Zou等(2013)采用基于树核的方法获取覆盖域的句法结构特征,同时还针对不同词性的触发词自动建立各自独立的分类器,在BioScope语料库上,将非事实性触发词和不确定性覆盖域界定任务的性能F值分别提高到76.90%和84.21%。在此基础上,Zou等(2014)探讨了篇章上下文信息对否定词覆盖域识别的影响。
近几年,深度学习技术的兴起为覆盖域界定研究提供了新的思路, Qian等(2016)初步探索了基于CNN的方法,进一步将BioScope语料库上的覆盖域界定性能提升至85.75%。此外,Fancellu等(2016)探索了基于双向长短时记忆模型(Bi LSTM)的覆盖域界定方法。
4.3 事件可信度计算语料资源
由于事件可信度判别研究最早出现在面向生物医学文献的自然语言处理研究中,因此,早期的标注语料库主要集中于生物医学领域。主要包括:1)GENIA事件语料库(Kim等, 2008):包括1000多篇生物医学摘要,标注了事件的极性和确定性;2)BioScope语料库(Vincze等, 2008):包括近2万个句子(包括9篇论文全文、1273篇论文摘要、1954篇病历记录),标注了否定、模糊限制语及其作用范围。
随着自然语言理解(尤其是信息抽取领域相关研究)对获取信息精准性和确定性的要求,事件可信度判别研究逐渐扩展至其它领域,相应地,其语料资源也逐渐丰富起来。Sauri(2009)以时间标注语料库TimeML为基础,构建了Factbank语料库。该语料标注了208个文档中的9500个事件,并将事件的真实性进行了更细粒度地划分:确定发生事件、很可能发生事件、可能发生事件、可能不发生事件、很可能不发生事件、确定不发生事件,以及多种不确定是否发生的事件类别。Ganter等(2009)收集了维基百科中438个缺乏证据支持的内容标签(Weasel Tag)进行人工标注,语料规模近2万句,其中包含了6276个非事实性事件。此外,Morante等(2011)以Conan Doyle的两部小说集(已包含共指关系和语义角色标注)为基础,标注了小说文体中的事件真实性现象。Lee等(2015)采用众包方法在TempEval-3语料库的基础上,标注了事件真实性值,该值取值为[-3, 3]的连续区间,表示事件“绝不会发生”到“一定会发生”。Huang等(2016)构建了EventStatus语料库,该语料库包含4500篇有关社会紧急事件的英语和西班牙语文档,标注了事件的时间属性(如过去、正在发生、未来等)。
以上所述相关语料均为英文语料。与此相比,中文事件真实性判别语料库极少,仅有Zou等(2016)构建的Chinese Negation and Speculation(CNeSp)语料库(http://nlp.suda.edu.cn/corpus/CNeSp)。该语料库选取了19篇科技论文全文、1311篇财经文章以及821篇产品评论进行标注,语料库规模达到16841句。
4.4 存在的问题
(事件/事件关系)可信度计算研究是一个很有前景的研究方向。目前,该研究方向仍处于起步阶段,局限于事件可信度计算,同时,存在如下关键问题亟待解决:
1)传统方法仅考虑了词法、句法、语义以及其它一些句子结构上的简单特征,这些特征大多凭借研究者的经验,借鉴自研究相对成熟的自然语言处理其它任务,较少有针对性地对事件真实性自身特点进行分析。例如,事件的真实性在转述的过程中往往可能会损失。另外,传统研究在特征选择方面,大都根据经验,对各种特征进行组合或过滤,导致现有的事件真实性判别方法很难达到全局最优。
2)现有事件真实性判别方法和模式过于单一,多数研究仅局限于利用词汇级和句子级的信息来判别事件可信度。事件作为话题的基本要素,往往围绕话题展开,在话题内部具有内聚性,如果仅凭借对待测事件本身的描述而忽略篇章上下文中的关联线索,那么将无法从全局角度对事件真实性进行判断,导致相关研究的性能指标一直处于较低水平。
3)除了自然语言文本中的表达内容和形式,判别事件可信度还需要考虑其外部特征,例如事件信息源的可信度。随着事件信息来源的多样化和复杂化,现有事件可信度判别方法很难识别虚假事件,无法直接为自然语言理解上层应用提供有力支持。目前,尚无有效手段基于文本信息来判别事件信息源的可信度。
5.知识图谱构建
随着大数据时代的到来,知识工程受到了广泛关注,而如何从海量的数据中提取有用的知识,成为大数据分析的关键。知识图谱技术提供了一种从海量文本和图像中抽取结构化知识的手段,具有广阔的应用前景。知识图谱的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎。知识图谱本质上并不是一个新概念,它是一种语义网络的知识库,即具有有向图结构的一个知识库,其中图的结点代表实体/概念,而图的边代表实体/概念之间的各种语义关系。
知识图谱构建目前局限于实体知识图谱的构建,其关键技术包括实体抽取、实体关系抽取、实体链接、知识融合和知识推理。作为自然语言的固有属性,歧义性和多样性也是实体链接的根本难点。如何挖掘更多、更加有效的消歧证据,设计更高性能的消歧算法是实体链接系统的核心研究问题。
在知识图谱构建技术方面,本文侧重事件知识图谱的构建,除了2、3、4三节已阐述的事件抽取、事件关系抽取及其可信度分析外,下节阐述知识推理,本节聚焦在知识融合和实体/事件链接方面。前者采用大数据处理技术,后者采用自然语言处理技术。下面,分别针对这两个方面进行介绍。
5.1 面向大数据的知识融合
面向大数据的知识融合主要包括:错误数据的自动识别、缺失数据的自动修复、多数据源中同义文本信息的识别。
在错误数据的自动识别方面,对错误数据的修正大致有两个主流方向。方向之一是基于约束条件(constraint-based)的研究方法(Cong等,2007;Kolahi等,2009;Lopatenko等,2007),包括Functional Dependencies(FDs)(Wijsen,2005;Bohannon等,2005),Conditional Functional Dependencies(CFDs)(Fan等,2008)和Inclusion Dependencies(INCs)(Bohannon等,2005)。此类方法期望通过对数据做最小的改动从而满足给定的约束条件,往往不能真正发现和修正错误数据,甚至会制造新的错误。此外,虽然完整性约束(integrity constraints)也被用于数据修正中,然而仍然有很多句法类语义类错误很难被这些约束条件发现和利用(Mayfield等,2010)。主流方向之二是基于统计学和机器学习的数据清洗技术(Eckerson等,2002)。此类方法通过建立复杂的模型来学习获取数据中的依赖和关联关系,虽然总体性能上要优于基于约束条件的研究方法,但是依然不能保证所有错误可以被发现并正确修正。究其原因,很多的错误数据仅靠本地数据有限的知识和信息难以被发现和修正。鉴于此,Yakout等(2011)分别借助外在的用户交互信息来做数据纠正且取得了一定的效果。然而,这些外在信息和数据往往并不容易获取,因而贡献很有限。
在缺失数据的自动修复方面,数据缺失问题是信息抽取中普遍存在的问题(Grzymala-Busse等,2001)。对丢失数据进行填补和修复的过程称之为Data Imputation(Dempster等,1977;Ramoni等,2001)。通常,缺失数据的自动修复技术主要借助于已有数据和挖掘到的关联关系来推理得出一个预测值或者估计值(Batista等,2003)。这些缺失文本数据修复方法大致可以被归为三类:(1) 替代数据修复方法:从同一个数据集中寻找某种限制规则下最合适的替代值,比如 “最常见属性修复值”、“缺省修复值”、 “均值”等等。另外,K近邻(K-Nearest Neighbors)(Grzymala-Busse等,2001)和关联规则(association rules)(Wu等,2004)也被用来得到相似环境下的“精确拟合修复值”(“close-fit” value)。替代数据修复法尝试用合适的替代数据来替换缺失数据,虽然在一定程度上平滑了缺失数据对相关数据统计分析结果的影响,但一般无法给出正确的缺失数值,特别是当这些缺失数据在整个数据集内是独一无二的时候。(2) 基于模型的数据修复方法:在数据集已有数据基础上建立一个预测模型,并用该模型对缺失数据进行预测。这些方法中有些专门针对连续型数据(Barnard等,1999;Wang等,2002),有些专门针对离散型数据(Zhang,2011),还有一些适用于混合类型的数据(Zhang,2008;Zhu等,2011)。总体而言,虽然基于模型的方法可以给出非常接近缺失数据的预测值,但仍然很难通过预测来获取真正正确的缺失数据,特别是离散类型的缺失数据。(3) 基于外部资源的数据修复方法:从额外数据资源中自动寻找和获取丢失的数据。Li等(2013)提出了基于互联网的缺失数据修复方法,讨论并解决了如何从互联网中有效地获取缺失数据的问题。还有一些类似工作尝试从网络结构化数据,如HTML表格中,获取需要的数据从而构建本地表格(Wang等,2008)。然而,这些方法只限于含结构化数据的页面,却不能解决更大范围的非结构化数据中的信息定位和抽取问题。
在多数据源中同义文本信息的识别方面,数据融合泛指融合不同数据源中的异质数据,而数据的异质性包括多个不同层次的异质,如schema层、instance层和value层(Lenzerini,2002)。不同层次异质数据的融合需要不同的数据处理方法来解决。例如,对于schema层的异质数据融合,大量的已有工作提出了很多切实可行的方案(Batini等,1986;Unal等,2010)。面向事件知识图谱构建的知识融合主要涉及instance层和value层的异质数据的融合问题。这两个层次的数据融合问题,又被称为数据链接问题,主要任务在于发现不同或者同一数据源中指向同一个实体的不同表达方法(Lenzerini,2002)。通常方法往往借助于简单的字符串相似性度量方法如edit distance, cosine similarity来判断比较有可能表达同义的文本字符串(Koudas等,2006),然而这些方法只能识别极其有限的同义字符串。还有一些方法考虑通过发现不同字符串在数据集内部或者某外部数据(如Wikipedia等常见资源)中的相关性,即交互信息来识别判断同义字符串,然而相关成果仅适用于部分含交互信息比较充分的或者与已有高质量外部知识库(如Wikipedia)有关联的数据集。Li等(2010)借助于互联网中蕴藏的信息来辅助判断和识别实际生活中经常碰到的instance层和value层异构数据。以此为基础,Li等(2011)和Li等(2013)中提出了一个基于Web的隐藏关联关系数据发现的框架,解决了其中的一些关键技术问题。
5.2 实体/事件链接
目前,事件链接相关研究基本空白,下面主要罗列与实体链接相关的主流方法,供参考,包括:基于概率生成模型的方法、基于主题模型的方法、基于图的方法、深度神经网络的方法。
在基于概率生成模型的方法方面,Han等(2011)提出了一种生成概率模型,该模型将候选实体e 出现在某页面中的概率、特定实体e 被表示为实体指称项的概率以及实体e 出现在特定上下文中的概率三者相乘,得到候选实体同实体指称项之间的相似度评分值。另外,Blanco等(2015)提出了用于搜索查询实体链接的概率模型,该方法采用了散列技术与上下文知识。
在基于主题模型的方法方面,Zhang等(2011)首先通过模型对文本中的实体指称进行自动标注,生成训练数据集用于训练LDA 主题模型,然后计算实体指称和候选实体的上下文语义相似度从而进行消歧。Shen等(2013)提出了对用户的兴趣主题建模的方法,首先构建关系图,图中包含了不同命名实体间的相互依赖关系,然后利用局部信息对关系图中每个命名实体赋予初始兴趣值,最后利用传播算法对不同命名实体的兴趣值进行传播得到最终兴趣值,选择具有最高兴趣值的候选实体。
在基于图的方法方面,Han等(2011)构造了一种基于图的模型。其中,图节点为所有实体指称和所有候选实体。图的边分为两类,一类是实体指称和其对应的候选实体之间的边,权重为实体指称和候选实体之间的局部文本相似度,采用词袋模型和余弦距离计算得出。另一类是候选实体之间的边,权重为候选实体之间的语义相关度,采用谷歌距离计算。Alhelbawy等(2014)也采用基于图的方法,图中的节点为所有的候选实体,边采用两种方式构建,一种是实体之间的维基百科链接,另一种是使用实体在维基百科文章中句子的共现。图中的候选实体节点通过和实体指称的相似度值被赋予初始值,采用PageRank 选择目标实体。Hoffart 等(2011)使用实体的先验概率,实体指称和候选实体的上下文相似度,以及候选实体之间的内聚性构成一个加权图,从中选择出一个候选实体的密集子图作为最可能的目标实体分配给实体指称。
在基于深度神经网络的方法方面,He等(2013)提出了一种用于实体消歧的实体表示训练方法。该方法对文章内容进行自编码,利用深度神经网络模型以有监督的方式训练实体表示,依据语义表示相似度对候选实体进行排序。
5.3 存在的问题
目前,知识图谱构建还存在以下问题:
1)知识图谱的构建集中在实体知识图谱构建方面,面向事件的知识图谱构建几乎空白,相关理论和研究方法很少。
2)事件相对实体而言具有更加明确的语义信息,如何利用这些语义信息以及可信度信息来构建事件知识图谱是一个挑战。
3)除事件之外,从文本中提取的事件关系本身也存在着冲突和冗余,如何消除冗余和解决冲突是事件知识图谱构建中的一个重要问题。
4)如何把大数据处理技术引入事件知识图谱的构建,从而利用跨文档知识来提高事件知识图谱的质量有待进一步探索。
6.知识图谱推理
知识图谱推理根据知识图谱中的已有知识,采用某些方法,推理出新的知识或识别出知识图谱中错误的知识,即主要包括:知识图谱补全(Lin 等,2015;Neelakantan等,2015)和知识图谱去噪(Jiang 等,2012;Paulheim等,2014)。知识图谱补全又包括连接预测(Trouillon等,2016)、实体预测(Xie等,2016)、属性预测(Bordes等,2013)等任务。
形式化地说,知识图谱通常用(头实体,关系,尾实体)的三元组形式表达事物的属性以及事物之间的语义关系,其中事物和属性值作为三元组中的实体,属性和关系作为三元组中的关系。所谓知识图谱补全,实际上是给定三元组中任意两个元素,试图推理出缺失的另外一个元素。即给定头实体和关系/关系和尾实体,找出与之形成有效三元组的尾实体/头实体)称为实体预测,同理,给定头实体和尾实体,找出与之形成有效三元组的关系,称为关系预测。无论实体预测还是关系预测最后都转化为选择与给定元素形成的三元组更可能有效的实体/关系作为推理预测结果。这种有效性可以通过规则的方式推理或通过基于特定假设的得分函数计算。所谓知识图谱去噪,实际上就是判断三元组的正确与否。因此,虽然知识图谱补全专注于扩充知识图谱,而知识图谱去噪专注于知识图谱内部已有三元组正确性的判断,本质上都是评估三元组有效性。
6.1 基于传统方法的推理
传统的知识推理包括本体推理一直以来备受关注,产生了一系列的推理方法。面向知识图谱的知识推理可以应用这些方法完成知识图谱场景下的知识推理。本节将概述这些应用的实例,具体分为两类,基于传统规则推理的方法和基于本体推理的方法,分别将传统的规则推理和本体推理方法用于面向知识图谱的知识推理。
在基于规则推理的方法方面,NELL知识图谱内部的推理组件采用一阶关系学习算法进行推理(Carlson等,2010)。推理组件学习概率规则,经过人工筛选过滤后,带入具体的实体将规则实例化,从已经学习到的其他关系实例推理新的关系实例。YAGO知识图谱内部采用了一个推理机Spass-YAGO丰富知识图谱内容,通过抽象化YAGO中的三元组到等价的规则类,并采用链式叠加计算关系的传递性,叠加过程可以任意地迭代,通过这些规则完成YAGO的扩充。Wang等(2013;2015)提出一阶概率语言模型ProPPR(Programming with Personalized PageRank)进行知识图谱上的知识推理。ProPPR构建有向证明图,节点对应“关系(头实体变量,尾实体变量)”形式的子句的连接或推理目标,其中起始节点为查询子句,边对应规则,即一个推理步,从一个子句归约到另一个子句,边的权重与特征向量相关联,当引入一个特征模板,边的权重可以依赖于模板的部分实例化结果,如依赖于某个变量的具体取值。
在基于本体推理的方法方面,基于本体推理的方法主要利用更为抽象化的本体层面的频繁模式、约束或路径进行推理。Bhmann等(2013)提出基于模式的知识图谱补全,首先从多个本体库统计分析发现频繁原子模式,然后在具体的知识图谱上查询这些原子模式和相关的数据,得到候选原子集,即原子模式的实例,最后基于在知识图谱中的正确性统计,计算每个候选的得分,用大于阈值的候选作为规则补全知识图谱。Jiang等(2012)关注于用启发式规则推理知识图谱中不确定和冲突的知识,提出基于马尔可夫逻辑网(MLN)的方法去噪抽取的NELL知识图谱。MLN由带权的一阶逻辑规则组成,结合了一阶逻辑和概率图模型。用一组常量实例化后,MLN最大化该实例化网络的概率分布。该概率分布基于推出实例多的强规则对应的权重大的原则,学习逻辑规则的权重,由此硬约束对应的权重无穷大。
总的来说,面向知识图谱的知识推理可以借鉴传统的知识推理方法,特别是本体推理方法。当规则、统计特征、本体频繁模式、本体约束/路径有效时准确率较高。知识图谱内部由于高准确率的要求,大多采用这些传统的推理方法。但无论是规则还是抽象层面的本体,都需要实例化,可计算性比较差,对于实例数量很大的知识图谱而言,代价很高。另一方面,有效且覆盖率广的规则和本体约束难以获得,导致推理结果的召回率通常比较低。而统计特征过分依赖已有数据,不易迁移,难以处理样本稀疏的情况,且当数据存在噪声时,抽取的特征甚至可能误导推理。因此,面向知识图谱的知识推理逐渐发展出独有的具体推理方法。
6.2 面向知识图谱的知识推理
面向知识图谱的知识推理用直接关系即知识图谱中的事实元组进行学习和推理,根据所用方法的不同,具体可分为基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理。
在基于分布式表示的推理方面,单步推理中基于分布式表示的推理首先通过表示模型学习知识图谱中的事实元组,得到知识图谱的低维向量表示,然后将推理预测转化为基于表示模型的简单向量操作。基于分布式表示的单步推理包括基于转移、基于张量/矩阵分解和基于空间分布等多类方法。
1)基于转移的表示推理
基于转移的表示推理,根据转移假设构建得分函数衡量多元组有效的可能性,得分越高,多元组越可能有效,即正例元组的得分高,负例元组的得分低。推理预测时,选取与给定元素形成的多元组得分高的实体/关系作为预测结果。基本的转移假设将关系看成实体间的转移,后续发展出更复杂的转移假设,将关系看成经过某种映射后的实体之间的转移。基本转移假设的提出者Bordes等(2013)提出了第一个基于转移的表示模型TransE,掀起了Trans系列的研究热潮。TransE的主要思想是:如果三元组(头实体,关系,尾实体)成立,头实体向量与关系向量的和与尾实体向量相近,否则远离。
针对TransE在处理多映射属性关系的不足,Wang等(2014)提出TransH,在TransE的基础上为每个关系多学一个映射向量,用于将实体映射到关系指定的超平面,然后在该超平面,和TransE一样,关系表示向量看成映射后的实体之间的转移。映射向量使得对于不同关系,同一个实体在不同关系指定的超平面有不同的表示,一定程度上缓解了不能很好地处理多映射属性关系的问题。进一步,Lin等(2015)则提出TransR,在单独的实体空间和关系空间建立实体和关系的表示,每个关系对应一个空间,有一个映射矩阵,实体通过对应的映射矩阵映射到关系空间后将关系向量看成实体向量间的转移。考虑到关系还可以进行更细致的划分,Lin等(2015)提出CtransR,将关系划分为关系组,为每个关系组学习一个关系向量和映射矩阵。
2)基于矩阵分解的表示推理
基于矩阵或者张量分解的表示推理将(头实体,关系,尾实体)三元组看成张量/矩阵中的元素构建张量/矩阵,通过张量/矩阵分解方法进行表示学习,而分解得到的向量表示相乘重构成张量/矩阵,元素值即为对应三元组有效与否的得分,可以认为得分大于特定阈值的三元组有效,或候选预测按照得分排序,选择得分高的候选作为推理结果。该类方法的典型代表是Nickel等(2011)提出的RESCAL,基于三阶张量进行表示学习,如果三元组成立,三阶张量上对应的元素值为1,否则为0。通过最小化重构误差学习实体和关系的表示。张量分解模型虽然推理准确率高,但内存占用量大,计算速度慢。为此,Chang等(2014)提出TRESCAL,在RESCAL的基础上,引入实体类型信息这一关系域知识,在损失函数的计算中排除不满足关系特定的实体类型约束的三元组,加速计算。Nickel等(2014)则提出新的张量分解模型ARE(Additive Relational Effects)学习知识图谱三元组的隐性和观察到的模式,用一个附加项增广RESCAL模型(隐性模式),对应观察到的模式。这里观察到的模式指用可观察的关系学习方法,例如规则方法等,得到的预测结果构成的三阶张量。He等(2015a)进一步直接处理知识图谱的稀疏性问题,并集成同知识图谱的补全,同时进行,利用不同知识图谱的互补性进行各自的推理。
3)基于空间分布的表示推理
基于空间分布的表示推理建立模型拟合知识图谱中实体和关系的空间分布特征,使得在向量表示空间中,实体和关系的空间分布尽可能和原知识图谱一致。该类方法通过设计对应的能反映空间分布特征的得分函数,与简单采用基于转移假设得分函数的基于转移方法区别开来,但采用和基于转移方法类似的学习和推理过程。Xiao等(2015)提出高斯混合模型TransG,第一次从产生式的角度看待表示学习,例如TransE的产生式过程为尾头实体向量之差符合以关系为均值,单位阵为协方差的高斯分布。TransG自动发现关系的隐性语义,利用关系不同隐性语义向量的混合转移头尾实体对,建模三元组,对应的产生式过程为尾头实体向量之差符合以每个关系隐性语义向量为均值,单位阵为协方差的高斯分布的加权和。He等(2015b)提出另一个高斯模型KG2E,转向基于密度的表示,直接建模实体和关系的确定性,在多维高斯分布的空间中学习知识图谱的表示。每个实体/关系用一个高斯分布表示,均值指示位置,协方差恰当地传达确定性。三元组的得分函数基于实体转移分布和关系分布的KL散度计算。Xiao等(2016)提出基于流形的表示模型ManifoldE(Manifold-based Embedding),扩展三元组的位置从向量空间中的一个点到一个流形结构,扩展基于转移的头实体向量加关系向量等于尾实体向量到基于轨道的流形函数,取得了很好的连接预测效果。
在基于神经网络的推理方面,单步推理中基于神经网络的推理利用神经网络直接建模知识图谱事实元组,得到事实元组元素的向量表示,用于进一步的推理。该类方法依然是一种基于得分函数的方法,区别于其他方法,整个网络构成一个得分函数,神经网络的输出即为得分值。Socher等(2013)提出神经张量网络NTN,用双线性张量层代替传统的神经网络层,在不同的维度下,将头实体和尾实体联系起来,刻画实体间复杂的语义联系。其中,实体的向量表示通过词向量的平均得到,充分利用词向量构建实体表示。具体地,每个三元组用关系特定的神经网络学习,头尾实体作为输入,与关系张量构成双线性张量积,进行三阶交互,同时建模头尾实体和关系的二阶交互,最后模型返回三元组的置信度,即如果头尾实体之间存在该特定关系,返回高的得分,否则低的得分。特别地,关系特定的三阶张量的每个切片对应一种不同的语义类型。一种关系多个切片可以更好地建模该关系下不同实体间的不同语义关系。Chen等(2013)引入类似的神经张量网络模型预测知识图谱中新的关系。通过用从文本无监督学到的词向量初始化实体表示提升模型,甚至可以预测知识图谱中未出现实体的关系。近期,Shi等(2017)提出共享变量神经网络模型ProjE。ProjE通过简单的组合操作组合三元组的已知部分(头实体与关系或尾实体与关系)建立目标向量空间,并映射未知部分(尾实体或头实体)的候选集到相同的空间,用基于候选的排序损失学习模型。相比于普遍采用的转移矩阵,组合操作减少了大量参数。进一步通过候选采样,处理大规模知识图谱。
以上面向知识图谱的知识推理研究主要局限于实体及其关系推理,在事件及其关系推理方面相关研究极少, Wang等(2017a,2017b)做了一些初步的探索,分别从时间轴上不同事件之间的相互关联,以及事件链上不同的事件关联触发,预测在整个事件关系网络上未知事件发生的可能性。
总而言之,基于神经网络的单步推理试图利用神经网络强大的学习能力建模知识图谱事实元组,获得很好的推理能力和泛化能力。然而神经网络固有的可解释性问题也依然存在于知识图谱的应用中,如何恰当地解释神经网络的推理能力是一大问题。
6.3 存在的问题
面向知识图谱的知识推理存在以下问题:
1)资源匮乏,特别是针对中文事件推理的标注语料匮乏,导致相关研究无法深入。
2)目前主要的研究方向还是传统的基于实体的知识推理。由于事件知识图谱本身需要构建与实体知识图谱之上,而事件知识图谱,以及事件关系网络的研究就很少。导致只有很少研究关注与基于事件的知识推理。
3)和实体知识推理不同,事件由更多的元素构成,而不同事件之间联系的种类也更多。因此,需要从不同的角度,已经深入考虑事件之间的语义关系,从而进行事件推理。
7.中文知识图谱研究
中文知识图谱也引起了产业界(例如阿里巴巴、百度)和学术界(例如清华大学、哈尔滨工业大学、苏州大学)的广泛关注。
作为产业界代表,阿里巴巴在2018年4月联合清华大学、浙江大学、中科院、苏州大学首次发布阿里巴巴藏经阁研究计划,建设基于知识引擎的平台服务,并逐步应用于阿里巴巴的各项业务。据了解,阿里巴巴藏经阁研究计划邀请了来自清华大学的李涓子教授作为学术负责人,浙江大学陈华钧教授、中科院软件所孙乐研究员、中科院自动化所赵军研究员、苏州大学张民教授作为学术专家,与阿里巴巴的研究人员一起,在知识建模、知识获取、知识融合、知识推理计算、知识赋能等领域协作创新,实现基础通用技术应用的开发,形成知识引擎的平台化服务。
作为学术界代表,清华大学构建了XLORE多语言实体知识图谱。XLORE融合了中英文维基、法语维基和百度百科,是中英文知识规模较平衡的大规模多语言实体知识图谱,它以结构化的形式描述客观世界中概念、实例、属性以及它们之间丰富的语义关系。XLORE中的分类体系基于群体智能建立的维基百科分类系统,包含1600多万个实例、240多万个概念,40多万个属性以及丰富的语义关系。另外,哈尔滨工业大学为了揭示事件的演化规律和发展逻辑,提出了事理图谱的概念,作为对人类行为活动的直接刻画。为了展示和验证事理图谱的研究价值和应用价值,他们从互联网非结构化数据中抽取、构建了一个出行领域事理图谱。初步结果表明,事理图谱可以为揭示和发现事件演化规律与人们的行为模式提供强有力的支持。显然,事理图谱就是一种事件知识图谱。最后,苏州大学开展了面向电子商务领域的实体知识图谱研究,并被成功应用于阿里巴巴藏经阁计划,同时开展了面向领域大数据的事件知识图谱构建研究,并获得了中国国家自然科学基金重点项目(NSFC61836007)的支持。
8.总结
现有知识图谱是以“实体/概念及其关系”为核心,缺乏对“事件及其关系”知识的挖掘。在实际应用中,事件之间的演化规律与模式非常有价值,挖掘这种知识对于我们认识人类行为和社会发展变化规律非常有意义。
综上所述,目前知识图谱的研究和建设主要以实体/概念(特别是人名)为基础,面向事件的知识图谱的语料和研究方法还处于探索阶段。特别是,中文事件知识图谱的研究几乎是空白。在事件知识图谱的基础工作方面,事件抽取、事件关系抽取和事件可信度计算的研究目前主要面向英文,中文相关工作很少,事件关系可信度计算方面不管英文还是中文都未见报道。所以,事件知识图谱构建不仅具有研究意义和应用价值,而且也是一项开创性的工作,值得大家关注。
作者简介
周国栋
(1967-) 男,博士,苏州大学计算机学院教授、博士生导师,研究方向主要包括:自然语言理解、自然语言认知、人工智能、信息抽取,目前担任CCF中文信息技术专委会副主任委员、中国人工智能学会自然语言理解专委会副主任委员、苏州大学学术委员会委员。
孔芳
(1977-) 女,博士,苏州大学计算机学院教授、博士生导师,研究方向主要包括:自然语言理解、信息抽取,目前担任CCF中文信息技术专委会委员。
李培峰
(1971-) 男,博士,苏州大学计算机学院教授、博士生导师,研究方向主要包括:自然语言处理、信息抽取,目前担任CCF中文信息技术专委会委员。
郑凯
(1983-) 男,博士,电子科技大学计算机学院教授、博士生导师, 研究方向主要包括:大数据, 目前担任CCF大数据专委会委员。
声明:本文来自中国计算机学会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。