AAAI 2020学术会议提前看：常识知识与常识推理

人工智能顶级会议 AAAI 2020将于2月7日-2月12日在美国纽约举办，AAAI 2020最终收到8800篇提交论文，评审了7737篇，接收了1591篇，接收率20.6%。

常识问题是人工智能领域最难的问题之一。在 NLP 领域，BERT 模型虽然已经表现出色，但是在常识知识问答数据集上的性能仍旧远低于人类。在计算机视觉领域，结合视觉场景的常识知识问答问题仍然具有较大难度。促进人工智能发展，使得机器具有「常识思维」，对于常识知识、常识推理的研究是值得关注的未来发展方向。本次 AAAI 2020学术会议论文提前看，笔者挑选了常识知识、常识推理相关的3篇论文为大家作以解读。

Joint Commonsense and Relation Reasoning for Image and Video Captioning（联合常识和关系推理用于图像和视频描述）
论文链接：https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf
论文速览
这篇论文是北京理工大学和阿里合作的一篇关于利用对象之间的关系进行图像和视频描述 (image caption/video caption) 的论文。大多数现有方法严重依赖于预训练的对象及其关系的检测器，因此在面临诸如遮挡，微小物体和长尾类别等检测挑战时可能效果不佳。
在本文中，作者提出了一种联合常识和关系推理的方法 (C-R Reasoning)，该方法利用先验知识进行图像和视频描述，而无需依赖任何目标检测器。先验知识提供对象之间的语义关系和约束，作为指导以建立概括对象关系的语义图，其中一些对象之间的关系是不能直接从图像或视频中获得。
特别是，本文的方法是通过常识推理和关系推理的迭代学习算法交替实现的，常识推理将视觉区域嵌入语义空间以构建语义图，关系推理用于编码语义图以生成句子。作者在几个基准数据集上的实验验证了该方法的有效性。
为了让大家更直观的感受，图1.1率先为大家展示了本文的方法在 MSVD 英文视频数据集和 Youku-vc 中文视频数据集上的定性结果。

图1.1本文方法在 MSVD 视频数据集合 Youku-vc 中文视频数据集上的效果示例
黄色和蓝色的框分别表示对象和关系的候选，『o-r-o』表示的是语义图中的『对象-关系-对象』，『o-r-a』表示的是『对象-关系-属性』。Ours 指的是作者的方法生成的描述，GT 是真实的描述语句。三张图片表示的是从视频中随机采样的帧。
作者的方法能够检测出一些难以「检测」的物体来生成精准的描述，比如 (b) 中用来化妆的小物体眉笔，比如 (d) 中被严重遮挡的人，分别通过先验知识<woman,put_on,makeup>和<woman,play_with,cat>推断了出来。并且该方法也能生成中文描述如 (c) 和 (f)，圆括号中的英文是对中文的翻译。
论文方法
C-R Reasoning 方法包括三个模块，如图1.2所示。视觉映射和知识映射模块（Visual Mapping & knowledge mapping）在生成语义实体候选后，通过视觉映射学习语义实体候选的视觉特征向量，通过知识映射来学习候选的知识向量。常识推理模块 (Common sense)根据给定的候选，在先验知识图的指导下构建语义图。关系推理模块 (Relation Reasoning)中根据给定的语义图，通过图卷积网络 (GCN) 和基于序列的语言模型来生成文本描述。

图1.2以生成视频描述为例展示 C-R Reasoning 方法1. 视觉映射和知识映射模块
(1) 视觉映射用于生成语义实体候选（例如对象，属性，关系）的视觉特征。对象和属性的候选通过局部区域的视觉特征表示。而关系候选是通过两个局部区域联合的视觉特征表示。使用预训练的 CNN 从输入图片或视频中密集采样局部区域，将采样的区域进行聚类，将聚类中心的候选作为代表性候选，将候选的视觉特征向量记为 V。
(2) 知识映射通过将候选的视觉特征向量 V 映射到先验知识的知识嵌入向量语义概念空间中，学习候选的知识向量 K。K=[k1,…,k_(Nv)]，其中 ki=Epi，E 表示知识嵌入向量，pi 表示知识嵌入向量的权重。知识嵌入向量使用 Visual Genome 上的知识图计算。作者构建了三种非线性映射网络来为对象、关系和属性这三类概念标签软分配（soft-assign）视觉特征向量。概念标签的真实值通过对真实描述使用词类标注工具得到。

图1.3 C-R reasoning 迭代执行示意图2. 常识推理模块
将视觉特征向量 V 和知识向量 K 作为输入，使用非线性映射函数 si=φ(vi,ki) 将候选表示为语义特征 S。语义特征满足通过常识推理标准推断出的对象，关系和属性之间的相关性和约束，以生成图像或视频的语义图。语义映射φ() 通过 C-R Reasoning 框架的反向传播进行更新。具体来说，知识图是三元组集，每个三元组 (Sh,Sr,St) 表示头实体 Sh 和尾实体 St 之间的关系 Sr。三元组的相关性准则由下式表示：

其中 W 是将语义特征转换成复向量的权重矩阵，带上划线的 Ws^t 是 Ws^t 的复共轭，<>表示三元组中向量的多线性点乘，Re() 是取实部，Im() 是取虚部。从候选中选择对上述准则有较大响应的三元组来生成语义图。
3. 关系推理模块
关系推理模块采用 GCN+LSTM 的模式，使用 [1] 中提出的图卷积网络沿着图的边来传播信息，并根据上下文对语义图中的特征进行编码，以生成对关系敏感的 (relation-aware) 三元组特征。采用了 [2] 的模型，该模型用自上而下的注意力 LSTM 来加权视觉特征，用语言 LSTM 来生成描述。根据加权的视觉特征和注意力 LSTM 中的隐藏状态计算出三元组特征的注意力权重，级联后输入到语言 LSTM 中可获得单词描述的条件分布。
4. 模型训练
总的损失 L=L_c+βL_s，其中β是超参数，L_c 是用于生成句子的交叉熵损失，L_s 用于指导学习三元组的语义特征。

理论上讲，C-R Reasoning 方法可以以端到端的方式进行训练，然而常识推理模块中语义图的构建面临优化挑战，因此作者设计了迭代算法，在常识推理模块的语义图生成和关系推理模块的描述生成之间交替优化。算法如下所示：

实验评估
作者使用了 MSVD 视频数据集和 MSCOCO 图像数据集进行了实验，MSVD 数据集从 Youtube 视频收集而来，训练验证和测试集划分为1200,100,670。MSCOCO 数据集包含超过100K 图像，每个图像有5个描述，作者采用的训练验证和测试图片数量划分为113287,5000,5000。此外，作者还对中文视频描述数据集 Youku-VC 进行了定性实验，训练验证测试数据划分为1000,215,215，每个短视频带有10个中文描述在 MSVD 和 Youku-VC 上的可视化结果已在前文的图1.1中展示。
Table1展示了 MSVD 视频数据集上的实验结果，前四种方法是简单的 sequence-to-sequence 模型，没有利用到对象间的关系，相比而言作者的方法取得了更好的性能，证明了联合常识和关系推理的优越性。与使用了在图像数据集上预训练的检测器然后视频中检测对象的方法相比，作者的方法仍旧更好，说明使用先验知识来识别对象是更为可靠的。Table2展示了在 MSCOCO 图像数据集上的结果，与未利用语义信息的方法相比（第一行）更高，与使用了预训练检测器的方法相比，作者提出的方法也是能够与之相提并论的。作者同样展示了他们的方法使用预训练的 Faster R-CNN 检测器用于从图像中提取初始区域的结果。此外，针对各部分的消融实验证实了各模块的有效性，如 Table3所示。

笔者小结
这篇论文并不是聚焦于常识知识和常识推理本身，而是联合常识和关系推理使得图像和视频描述中那些「难以捉摸」，「并非直接可见」的物体或关系现形，使得描述更加精准。并且本文的方法并不需要使用预训练的对象或关系检测器。通过这种常识性关系，联合学习的策略，能够更好地实现全局语义的一致性。笔者认为这篇论文对于将常识知识、常识推理用于视频图像描述、视觉知识问答等领域一定的启发。
参考文献：[1]Johnson J, Gupta A, Fei-Fei L. Image generation from scene graphs[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1219-1228.[2]Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6077-6086.
Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering （利用异构外部知识基于图的推理进行常识知识问答）
论文链接：https://arxiv.org/pdf/1909.05311.pdf
论文引入
常识问答往往需要那些并没有在问题中显著表达的背景知识。这一挑战的关键在于如何从外部知识中获取证据并根据证据做出预测。
如图2.1所示，问题「人们在弹吉他的时候通常做些什么？」选项 A. 哭 B. 听声音 C. 唱歌 D. 关节炎 E. 制作音乐，根据从 ConceptNet 上的证据可以帮助我们挑出 A 和 C 这两个选项，根据来自维基百科的证据，我们可以挑出 C 和 E 两个选项，结合二者，我们能够得到正确答案 C。
来自结构化的知识源（如 ConceptNet）包含概念之间的宝贵结构关系，对于推理很有帮助，但是它们的覆盖率低。而纯文本知识源（如维基百科）是对结构化知识的补充，可以提供丰富且覆盖面广的证据。最近的研究还没有同时利用这两类知识源进行推理的，因此在这项工作中，作者提议自动从这两个异构知识源中提取证据，并根据提取的证据回答问题。

图2.1 CommonsenseQA 数据集中的一个示例，该示例需要多个外部知识才能做出正确的预测。
论文方法
本文的方法包括知识提取和基于图的推理两个部分，如图2.2所示。

图2.2本文方法概览
（1）知识提取部分：根据给定的问题和选项，从结构化知识库 ConceptNet 中自动提取图路径，从维基百科纯文本中自动提取句子。为了更好地利用证据的关系结构，作者为两种知识源分别构建图。ConceptNet 是大型常识知识库，常识知识由三元组表示（实体节点，关系，实体节点），对于给定的问题和选项，首先识别出其中的实体，然后在 ConceptNet 中搜索从问题实体到选项的路径，将涉及到的三元组合并到一个图中，让三元组作为节点，边为三元组之间的关系；对于维基百科的句子，作者使用了 Elastic Search 工具为句子建立了索引，在删除问题和选项中的停用词后进行搜索，将匹配到的维基百科句子根据匹配分数进行排名，取前 K 个匹配句子作为证据，并通过语义角色标记（Semantic Role Labeling）为维基百科证据中的每个谓语提取主语（主体）和宾语（客体），将主语谓语和宾语作为图的节点，将谓语和其它两者之间的关系作为图的边。

（2）基于图的推理部分：基于图的推理部分包含两个模块：（a）基于图的上下文表示学习模块，该模块利用图结构信息重新定义单词之间的距离以学习更好的上下文单词表示。作者提出拓扑排序算法（Algorithm 1）根据构造图对证据进行排序，需要说明的是，对于结构化知识源 ConceptNet，使用了 ConceptNet 提供的关系模板将三元组转换为自然语言文本句子。作者使用 XLNet 作为 backbone，将已排序的 ConceptNet 证据语句、已排序的维基百科证据语句、问题语句、选项这四者的级联作为 XLNet 的输入，得到的 XLNet 输出是上下文单词表示。通过将提取的图转换为自然语言文本，就将两个不同的异构知识源融合到了同一表示空间中。（b）基于图的推理模块。作者采用 [1] 中的图卷积网络对图结构信息编码来获取节点表示，通过合并相邻节点的特征来更新节点表示。第 i 个节点表示 h_i^0，是通过对 XLNet 输出中相应证据的隐藏状态取平均值并通过非线性变换来减小维数而得到的：

其中 si = {w0，···，wt} 是第 i 个节点对应的证据，h_wj 是 XLNet 对 wj 的上下文表示，W 将高维 d 缩减为低维 k，σ是激活函数。
为了对图进行推理，首先聚集来自每个相邻节点的信息。第 i 个节点聚集的信息 z_i^l：

其中 Ni 是第 i 个节点的邻居，h_j^l 是第 j 个节点在第 l 层的表示。将 z_i^l 与转换后的第 i 个节点表示结合起来获得更新节点表示 h_i^(l+1).
利用图注意机制来聚集图表示进行预测，图表示 h^g 的计算：

其中 h_i^L 是第 i 个节点在最后一层的表示，h^c 是 XLNet 最后一个序列的表示，也可被视为输入表示，α_i 是第 i 个节点的权重，h^g 是图表示。
作者将输入表示 h_c 与图表示 h^g 级联在一起，输入多层感知器来计算置信度得分 score(q,a)。对于问题 q 而言，候选答案 a 的概率计算如下：

其中 A 是候选答案集，最终选择最高的置信度得分回答作为预测回答。
实验评估
作者使用 CommonsenseQA 数据集进行了实验，该数据集包含12102个样本 (train:9741,val:1221,test:1140)，作者选择了在验证集上最好的模型，并提交了在测试数据上的预测结果。比较实验选择了排行榜上有名的模型，作者将它们分为四组：

· Group1：模型没有相应的描述，也没有发表论文

· Group2：模型没有使用提取的知识

· Group3：模型使用了提取的结构化知识

· Gropu4：模型使用了提取的非结构化知识

这些方法要么使用的是来自结构化知识源的证据，要么利用了来自非结构化知识源的证据，没有同时利用到两种知识源的优势。在 CommonsenseQA 验证集和测试集上的结果如 Table1所示，与四组方法相比，作者的方法均达到了最佳性能。Table2展示了作者的方法在验证集上进行消融实验的结果，在 baseline 中作者将所有的证据简单地连接到 XLNet 中，并采用上下文表示进行预测。通过添加拓扑排序算法，获得了比 baseline 高1.9% 的收益，单独添加图形推理模块带来了1.4% 的提升，二者一起添加获得了3.5% 的提高。随后作者进行了知识源的消融实验，Table3的结果证明了结合使用 ConceptNet 和 Wikipedia 获得的巨大效果提升，说明异构知识源的性能要优于单个知识源和不同知识源。

笔者小结：这篇论文作者的创新在于提出了一种基于图的方法，利用不同结构的知识源进行常识知识问答，并且提出了基于图的上下文表示学习模块和基于图的推理模块，更好的利用了图信息。作者的方法在目前的 CommonseQA 排行榜上达到了最先进的性能。
参考文献：[1]Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
PIQA: Reasoning about Physical Commonsense in Natural Language(物理交互问答:自然语言中的物理常识推理)
论文链接：https://arxiv.org/pdf/1911.11641.pdf
论文速览：「在不使用刷子涂眼影的情况下，我应该用棉签还是牙签？」类似这种需要物理世界常识的问题对现今的自然语言理解系统提出了挑战。虽然最近的预训练模型 (如 BERT) 在更抽象的如新闻文章和百科词条这种具有丰富文本信息的领域问答方面取得了进展，但在更现实的领域，由于报导的偏差，文本本质上是有限的，类似于「用牙签涂眼影是一个坏主意」这样的事实很少得到直接报道。人工智能系统能够在不经历物理世界的情况下可靠地回答物理常识问题吗？是否能够捕获有关日常物品的常识知识，包括它们的物理特性、承受能力以及如何操纵它们。在本文中，作者介绍了一个关于物理常识推理任务和相应的基准数据集 PIQA（Physical Interaction：Question Answering）进行评估。虽然人类应对这一数据集很容易 (95% 的准确率)，但是大型的预训模型很难 (77%)。作者分析了现有模型所缺乏的知识为未来的研究提供了重要的机遇。

图3.1 PIQA 数据样本示例
PIQA 数据集
PIQA 专注于日常生活中的物理常识，偏爱非典型的解决方案。图3.1展示了一个 PIQA 示例，要使用矿泉水瓶将蛋黄和蛋清分离开你应该怎么做？a. 对着蛋黄挤压矿泉水瓶，然后再松开，就能产生吸力吸走蛋黄。b. 将矿泉水瓶放在蛋黄上，不断推动，就能够产生吸力吸走蛋黄。对于人类来说，选出答案 a 是很容易的，而机器却很容易上当。

图3.2 PIQA 数据集示意（左边的问答更侧重于物体的属性，右边的问答从技术角度而言都是对的，但是侧重于更方便可取）
PIQA 数据集的产生
PIQA 任务的本质是选择问答，给定问题 q 和两个可能的解决方案 s1,s2，其中只有一个是正确的 (如图3.2所示)，模型或人类必须选择最合适的解。数据集由人工注释者按照目的-解决方案对进行定义。目的可被看作一种后置条件，而解决方案则表示完成这一条件的过程。目的越详细，就越容易写出正确和不正确的解决方案。为了提醒注释者进行创造性地思考设置出非典型性的解决方案，会启发注释者从 instructables.com 网站的链接上获取灵感以构建任务数据集。instructables.com 网站是一个众包指导网站，指导如何使用日常材料构建、制作、烘焙，涉及到从烹饪到汽车维修等等，大多数情况下每个步骤会配有图像、视频以及所需要的工具列表。注释者会使用一些语言上的技巧，对正确的解决方进行细微的修改就能得到错误的方案，比如说改变某个关键词，改变数值，替换成对实现目的没有帮助的另一个动作等等。在对数据集进行验证时，会将需要专家知识的样本进行移除，并使用 AFite 算法进行进一步清理。
PIQA 数据集信息统计
PIQA 数据集由16,000多个训练的 QA 对组成，另外分别提供了约2K 和3K 进行开发和测试。目的长度平均为7.8个单词，正确和不正确的解决方案平均长度为21.3个单词，正确和不正确解决方案所使用的单词之间至少有85% 的重叠。通过对名词，动词，形容词，副词出现的词频统计，验证了数据集确实是和物理现象强相关的。比如，出现词频最高的形容词中包括状态（干燥的、干净的、烫的），形状（小的、锋利的、平坦的），形式（快速的、仔细的），这些属性通常决定了解决方案的正确与否。

实验评估
作者在 GPT 模型，BERT 模型，和 RoBERTa 模型（BERT 的一个版本，使用了更多数据进行预训练）上进行了实验。实验结果如 Table 1所示，结果表明现今最好的模型和人类之间仍有近20% 的差距。接下来作者对数据集的哪些方面愚弄了 RoBERTa 模型进行了分析。两个解决方案的编辑距离（即不同单词的个数）越大，模型的准确率越低。作者发现 RoBERTa 模型仍旧难以理解许多常见且通用的物理概念，如图3.4所示，验证集样本 (q,s1,s2) 中 s1和 s2唯一的区别在于单词 w，当 w 是’cold’,’before’,’after’时，RoBERTa 模型的准确率接近随机猜测50%。以准确率较高的’water’和’spoon’为例，作者进一步探究了训练集中最常替代它们的词汇，如图3.5所示。替代勺子的最常见词汇是叉子、刀子，但物理世界中勺子通常不能用锋利的或者尖头的器具进行代替，RoBERTa 在’spoon’上的表现 (90%) 表明它可能理解到了勺子的这种简单特性。’water’在训练集中很常见，具有很高的通用性，替代它的最常见词汇是牛奶、油、苏打，物理世界中用这些东西替代水可能会产生很糟糕的后果，RoBERTa 约75% 的准确率表现，说明它对’water’的概念还没有理解到位。而’freeze’仅66% 说明动词的理解对于 RoBERTa 而言仍不是强项。

（左）图3.4通过常识概念看 RoBERTa 对物理世界的理解（右）图3.5 『water』,『spoon』,『freeze』的最常见替换词
笔者小结
本篇论文提出的任务非常新颖，物理常识推理任务，相较于常识知识库中所收纳的那类常识而言，物理常识更注重于物体的物理属性，且 PIQA 数据集偏向于非典型性物理常识，不能直接从已有的文本库中得到答案。对于这类物理常识推理问题，目前最好模型的表现与人类仍有较大差距，说明模型缺乏对物理世界一些最基本物理特性的理解。如果在此类问题上能有所突破，那么人工智能领域将会更进一步。
总结
笔者选取的这3篇论文从不同角度展示了常识知识、常识推理的研究进展。第一篇论文打开视野，将常识与关系推理相结合，应用到图像视频描述生成的领域，三个部分互相配合，达到了很好的效果。第二篇论文提出新的方法来解决常识知识问答问题，将异构常识知识源融合到同一表示空间，使用图推理进行常识知识问答，在标杆数据集 CommonsenQA 上效果极佳。第三篇论文推出了新的物理常识推理任务并提出了 PIQA 数据集，为未来常识问题的研究提供了机遇和挑战。由于常识知识、常识推理常常和自然语言理解、视觉问答等相结合，因此解决和常识相关的问题相比一般的自然语言处理和计算机视觉问题更为棘手，但除了第三篇是介绍数据集为目的，第一篇和第二篇文章不约而同的都采用了图或者图神经网络来解决，说明了这可能是解决该问题的一个方向。目前最先进的语言模型在解决常识知识、常识推理等问题时仍和人类有较大差距（如在 CommonseQA 和 PIQA 上的表现），常识知识和常识推理仍然是人工智能中值得探索的领域！
AAAI 2020接收论文列表：https://aaai.org/Conferences/AAAI-20/wp-content/uploads/2020/01/AAAI-20-Accepted-Paper-List.pdf
本次 AAAI2020其它相关论文：

· Commonsense Knowledge Base Completion with Structural and Semantic Context（利用结构和语义上下文的常识知识库实现）

· 论文链接：https://arxiv.org/pdf/1910.02915.pdf

· Understanding the semantic content of sparse word embeddings using a commonsense knowledge base（使用常识知识库理解稀疏词嵌入的语义内容）

· 论文链接：https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_29.pdf

· Evaluating Commonsense in Pre-trained Language Models（在预训练语言模型中评估常识）

AAAI 2020学术会议提前看：常识知识与常识推理

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复