0%

【论文笔记】Discourse-Aware Neural Extractive Model for Text Summarization

Discourse-Aware Neural Extractive Model for Text Summarization. Jiacheng Xu, Zhe Gan, Yu Cheng, Jingjing Liu. ArXiv 1910.14142.[PDF]

动机

作者分析认为现有抽取式文档摘要存在以下两个不足:

  • 抽取式文档摘要都是以句子级别进行抽取,导致结果包含冗余或者没有用的信息。
  • BERT常被SOTA文档摘要模型用在文档编码器,但是BERT是再句对上预训练的,不能很好捕捉长距离的句间依赖关系。

针对以上两个不足,作者提出了两个解决方法:

  • 按EDU进行抽取 (EDU是RST中的基本单元,具体可以去了解discourse parsing)
  • 构造RST Graph和Coreference Graph建模长距离句间依赖关系。

方法

Discourse Segmentation: sequence to EDU

Discourse Parsing: EDU to RST tree

RST Graph

通过篇章分析,可以在篇章上构造得到一棵树,树的叶子节点是EDU,树上的边代表的是对应子节点的重要性程度,N代表主要,S代表次要,可以认为S是N的补充。相邻两个子节点可以有三种关系,N-N,N-S,S-N。

作者提出假设:S依赖N,所以存在一条路径从S指向N;如果两个节点都是N,就认为是右N依赖做N。

根据这个假设,可以将RST discourse tree转成成RST dependence graph。

注:论文原图中没有标N和S,为了好理解我标了N和S。

如果存在一条从第i个EDU指向第j个EDU的路径,则设GR[i][j]=1,否则为0,这样就可以将RST Graph转化成GR矩阵。

Coreference Graph

通过斯坦福的CoreNLP工具,可以得到多个共指簇(coreference clusters),每个簇中的EDU都指向同一个实体。指向同一个实体的EDU存在联系,所以同一个簇中的所有EDU之间(包括自己跟自己)存在一条边。基于这个原则,作者设计一个构造coreference graph的算法,遍历所有簇,簇中每个EDU之间存在一个边。也就得到了共指矩阵GC。

模型框架

首先使用BERT编码整个篇章,使用BERT得到的隐状态表示,每个EDU内部做self-attention得到EDU的表示,由得到的EDU表示和两个矩阵表示GR和GC,做GCN得到EDU新的表示,通过MLP预测EDU是否被抽取出来做EDU(0-1序列标注)。

实验

作者在两个数据集上进行验证,并得到了SOTA结果。