0%

【论文笔记】Improved Document Modelling with a Neural Discourse Parser

Improved Document Modelling with a Neural Discourse Parser.Fajri Koto, Jey Han Lau, Timothy Baldwin. ArXiv 1911.[PDF]

动机

使用篇章结构信息提高篇章建模。

方法

文章的关键有两点,篇章结构是什么?如何利用篇章结构?

篇章结构是什么?

本篇文章的篇章结构由RST分析得到,首先将篇章切分成EDU,然后再EDU基础上建立篇章分析树,树上的叶子结点为EDU,非叶子结点为其两个子节点的篇章关系,树上的边为对应子节点在该关系中的重要性。(具体可以去了解一下RST官网介绍和相关论文)

如何利用篇章结构?

如何利用篇章结构,首先是如何编码篇章结构,也就是如何抽取篇章分析树的特征。针对每个树根节点到每个叶子结点的路径,作者设计两类特征:Shallow Discourse Features 和 Latent Discourse Features。

Shallow Discourse Features

  • 叶子结点重要性分数

统计路径上Nucleus的比例,h(root)为根节点高度。

  • 关系重要性分数

统计路径上每个关系的加权比例,h(x)为节点x的高度。

  • 结点类别

    Nucleus or satellite

    • 兄弟结点

    Latent Discourse Features

使用两个Bi-LSTM分别编码词序列和句法特征序列,avg-pool,然后拼接。

拼接后的序列再过一个Bi-LSTM得到最终特征表示。

如何利用篇章特征

得到两类特征后,要如何利用呢?本文提出了三种方法。

  • 拼接word embedding

  • 加一层Bi-LSTM

  • 作为解码attention的一个额外输入

实验

Document Summarizatoin

第一种和第二种方法较好。

Petition Popularity Prediction