自从图卷积神经网络(GCN)面世以来,图神经网络(GNN)的热潮一瞬间席卷 NLP。似乎在一切 NLP 任务上,引入一个图结构,引入一个 GNN,就能让模型拥有推理能力。更重要的是,似乎在实验结果上,也能证明 GNN + NLP 的有效性。具体地,GNN + NLP 可以分成以下两类任务:在本来就需要图的任务上,比如知识图谱问答(KBQA),大家从问题和答案中抽取关键实体,从知识图谱中将这些实体,以及及所有路径提取出来,作为知识图谱针对这个问题提取出的子图,在这上使用 GNN 进行推理。在本来没有图的任务上,比如文档级的抽取或者理解任务,大家将文档中的关键实体作为节点,并用一些简单的规则连边(比如,在同一个句子里的实体连边、指代同一个概念的实体连边,等等),得到一张文档对应的图,在上面用 GNN 推理。看起来建图是有用的,可接下来,为啥一定要用 GNN 呢?最近的文章里,人们都说 GNN 有“推理能力”,即 GNN 在图上的信息传播过程相当于在图上找路径,这些路径可以解释答案得到的推理步骤。在 KBQA 任务里,GNN 能在图中挑选出从问题实体到答案的推理路径。比如:这里提问:哪里能找到有电梯的地下室呢?衣柜、教堂、办公楼,三选一,答案显然是办公楼。在这个 case 里,模型预测出了 elevator → building → office building 和 basement → building → office building 两条路径,这看起来都能解释答案的选择逻辑。在文档级关系抽取任务里,GNN 的推理路径就表示了关系的传递。比如:图中右边是文本,大概讲的是二战中几个国家军队的故事,下划线的是实体;左边是 World War II 这个实体,在两层 GNN 中,分别对所有实体的注意力权重。这样我们也能得到与前一个例子相似的一些推理路径:World War II → New Ireland → Japan 和 World War II → New Ireland → Imperial Japanesae Army。这也解释了为什么 Japan 与 World War II 是“参与者”的关系。但是,问题来了!推理的必要条件其实只有一张图,我们真的需要 GNN 中复杂的节点与边的表示、复杂的信息聚集和传播,才能“推理”吗?今天我们带来一篇杨迪一老师领衔的文章 GNN is a Counter? Revisiting GNN for Question Answering。这篇文章表明,GNN 被我们滥用了,推理真的不需要 GNN!简简单单的一个计数器就足够!论文题目:GNN is a Counter? Revisiting GNN for Question Answering论文链接:https://arxiv-download.xixiaoyao.cn/pdf/2110.03192.pdf
这篇文章表明 GNN 中很多模块对于推理都是可有可无的。但似乎这和我们之前的印象有些不同?大家一直都说,信息在图上传播的路径就是推理路径。GAT 的 attention 权重就是传播信息的一个权重,因此大家在 case study 上看信息传播路径的时候,都是找 attention score 大的,看做信息传播的下一跳。然而本文却表明,attention 这部分参数对于结果几乎没有用?另外,在基于 counter 的模型上,case study 中依然能复现出信息传播的过程。那这是不是说,节点之间的 attention score 没有必要,节点自己的表示就足够了?那 GAT 为什么又会比 GCN 好呢?GNN 里面到底哪些是有用的参数?推理真正需要什么模块?这些都需要更多的研究和思考。
参考文献
[1] Michihiro Yasunaga, et.al., "QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering", NAACL 2021, https://arxiv-download.xixiaoyao.cn/pdf/2104.06378.pdf
[2] Guoshun Nan, et.al., "Reasoning with Latent Structure Refinement for Document-Level Relation Extraction", ACL 2020, https://arxiv-download.xixiaoyao.cn/pdf/2005.06312.pdf