论文浅尝 | BoxE:一种基于Box的知识图谱表示学习模型

笔记整理 | 耿玉霞,浙江大学直博生。研究方向:知识图谱,零样本学习等。


论文链接:  https://arxiv.org/pdf/2007.06267.pdf

本文是发表在NeurIPS 2020上的一篇基于Box的知识图谱表示学习模型的文章。在以往知识图谱表示学习(KG Embedding)的相关工作中,通常将知识图谱中的实体和关系均映射为n维向量空间中的一个点,而这篇文章提出将图谱中的关系表示为n维空间中的一个区域,即一个Box,基于Box的关系表示,使得表示学习模型的表达能力更强、能更好地捕获隐含在图谱中推理规则,同时可以兼容外来的推理规则。更重要的是,模型支持对图谱中多元关系(>2)的表达,对于更复杂的知识库有较强的学习能力。

1. 背景:知识图谱与知识库

通常,知识库由一组facts组成,每个fact表示为   ,即m个实体  及其关联关系   。其中关系r依据其关联实体个数的不同,称为m元关系。而知识图谱作为一种特殊的知识库,其中的关系均为二元关系,即图谱中的fact为三元组。

一般的表示学习工作主要围绕图谱的表示学习展开,而对于带有多元关系的知识库的表示学习工作则较少。

2. 模型设计

2.1 实体及关系表示

本文提出的BoxE模型将实体表示为n维向量空间中的一个点,而关系则表示为n维向量空间中的区域,即对于m元关系,它的表示为n维空间中的m个区域(即m个Boxes),如二元关系parentOf,其表示为n维空间中的两个Boxes。

具体地,每个实体的表示由两个向量组成:一个是基向量(base position vector);一个是转移向量(translational bump vector),用于将当前实体的信息转移到位于同一个fact中的其他实体的表示上;换言之,对于每一个实体,其最终的表示为融合了该实体的基向量与位于同一个fact中的其他实体的转移向量的向量表示,如对于fact  中的第  个实体,其最终表示为:

其中,  为实体  的基向量,  为其转移向量。

如对于一个fact  ,其中实体  的表示为:,  表示为:。而关系则由两个Box表示,一个代表为头实体范围的Box,另一个为代表尾实体范围的Box。基于此,作者假设,fact 成立的条件为实体最终的向量表示将出现在其对应位置的关系Box中。如下图所示,为其头实体所在的Box,为其尾实体代表的Box。

1.2 损失函数

     基于上述假设,作者设计了一个距离函数,用于约束向量空间中的实体位置及其对应的Box的位置:

      其中, 表示Box的中心位置,表示Box的宽度,, 分别表示box 的上界和下界。

     此距离函数的设计,使得实体位于其所在的Box时,函数的值较小,而实体在Box外时,函数值较大,从而产生较大的梯度。

 模型最终训练的损失函数定义为:

3. 模型能力

     

3.1 对于图谱中推理规则的捕捉

      一般地,知识库中蕴含了一些诸如层次性、对称性的逻辑规则,对于这些逻辑规则的捕捉,可以帮助知识库进行更好地推理和泛化。如已知某关系有对称属性时,对于fact 可以推理得到新的fact

  现有知识图谱表示学习的方法,如TransE可捕捉Inversion、Composition等推理规则,而对于Symmetry等规则则无法捕捉,本文提出的BoxE利用关系基于Box的表示,通过Box之间的操作实现对图谱中逻辑规则的捕捉,如对于对称规则,当关系存在对称属性时,其头尾实体对应的Box为相同的Box;而当关系为一对反关系时(Inversion规则),关系头实体对应的Box为关系尾实体对应的Box。

  推理规则的释义及现有表示学习模型对于其捕捉能力的说明见下图所示。

      其中,泛化的推理规则是指表示学习模型可以同时捕捉相同类型的推理规则的多个实例;除此之外,BoxE还可以同时捕捉不同类型的规则实例,这是以往的表示学习模型无法实现的。

3.2 对于外部引入的推理规则的融合

  一般地,对于一些已知的、先验的推理规则,以往的模型利用推理机等符号推理的方式,将这些规则应用到知识图谱的三元组实例数据上,从而推理出更多的图谱实例。现有的表示学习模型由于其向量化的表示方式,难以将这些先验规则引入模型。而BoxE中基于Box的关系表示方式,使得模型可以利用Box之间的操作将推理规则融入模型。

3.3 对于多元关系的表示和学习

  如前所述,二元关系在BoxE模型中被表示为两个Box,而对于包含多元关系的fact ,其关系由m个Box表示。这种表示方式,相比于其他处理多元关系的模型,具有更好的效果。

4. 实验结果

      作者首先在标准的知识图谱补全(KGC)的数据集如FB15k-237、WN18RR及YAGO3-10等上进行了实验,实验结果如下图所示。

BoxE相比于TransE、RotatE等模型,达到了SOTA或comparable的结果。

随后,作者在包含多元关系的JF17K、FB-AUTO等数据集上进行了知识库补全(KBC)的实验,实验结果如下图所示:

最后,为验证模型对于外来推理规则的融合能力,作者在NELL数据集的子集Sports NELL上验证了模型的性能,实验结果如下所示:

相比于BoxE模型,加入了融合模块(BoxE+RI)的模型,具有非常好的预测结果。

5.总结

(1)本文提出了一个基于Box的表示学习模型,在提升图谱补全能力的同时,对于图谱中推理规则进行了有效的捕捉,以及对于外部推理规则进行了有效的融合,同时还可泛化至包含多元关系的知识库的表示和推理。

(2)对于知识图谱表示学习等模型来说,对于先验推理规则的应用是非常重要的,其对于模型推理能力的提升可提供有效的帮助,尤其是在图谱样本稀缺、低资源的情况下;

(3)而在深度学习的背景下,BoxE这类基于区域的表示学习模型,对于图谱中实体及关系的表示提供了丰富的表达能力,这些表达更丰富的实体及关系对于其相关符号化知识(推理规则等)的引入提供了方便。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注