0%

【论文笔记】Hierarchical Modeling of Global Context for Document-Level Neural Machine Translation

Hierarchical Modeling of Global Context for Document-Level Neural Machine Translation. Xin Tan, Longyin Zhang, Deyi Xiong, Guodong Zhou. EMNLP 2019. [PDF]

动机

本文觉得现有篇章翻译工作基于pre-context的方法存在两个不足:

(1)只利用一边(one-sidedness)的上下文可能还不够

(2)不正确的pre-context(translation bias propagation caused by improper pre-context)可能会导致翻译错误,所以本文想要利用整个篇章建模全局上下文(global context)来提升篇章翻译。

方法

使用层次结构建模全局上下文

A. Sentence Encoder

首先对句子进行编码得到每个词的隐状态表示,

求和得到整个句子的表示,

B. Document Encoder

对篇章所有句子进行编码,得到拥有篇章信息的句子表示(sentence-level global context)

C. Backpropagation of global context

由sentence-level global context得到word-level global context

将全局上下文结合到NMT中

像其他工作一样,这个global context既结合在编码阶段,也可以结合在解码阶段。

A. 结合在编码阶段

使用word-level global context更新每个词的表示,P表示残差dropout,这里为0.1。

B. 结合在解码阶段

实验

本文实验在中英和德英两个数据集上进行。

数据集

A. 中英

句子级别数据(用于预训练):2.8M news corpora (LDC 2003E14, LDC2004T07, LDC2005T06, LDC2005T10, LDC2004T08)

篇章级别数据: IWSLT 2017 TED (1906个文档,226K个句对 )

B. 德英

(不进行预训练,没有句子级别数据)

篇章级别数据:IWSLT 2014 TED (1361个文档,172个句对)