Hierarchical Modeling of Global Context for Document-Level Neural Machine Translation. Xin Tan, Longyin Zhang, Deyi Xiong, Guodong Zhou. EMNLP 2019. [PDF]
动机
本文觉得现有篇章翻译工作基于pre-context的方法存在两个不足:
(1)只利用一边(one-sidedness)的上下文可能还不够
(2)不正确的pre-context(translation bias propagation caused by improper pre-context)可能会导致翻译错误,所以本文想要利用整个篇章建模全局上下文(global context)来提升篇章翻译。
方法
使用层次结构建模全局上下文
A. Sentence Encoder
首先对句子进行编码得到每个词的隐状态表示,
求和得到整个句子的表示,
B. Document Encoder
对篇章所有句子进行编码,得到拥有篇章信息的句子表示(sentence-level global context)
C. Backpropagation of global context
由sentence-level global context得到word-level global context
将全局上下文结合到NMT中
像其他工作一样,这个global context既结合在编码阶段,也可以结合在解码阶段。
A. 结合在编码阶段
使用word-level global context更新每个词的表示,P表示残差dropout,这里为0.1。
B. 结合在解码阶段
实验
本文实验在中英和德英两个数据集上进行。
数据集
A. 中英
句子级别数据(用于预训练):2.8M news corpora (LDC 2003E14, LDC2004T07, LDC2005T06, LDC2005T10, LDC2004T08)
篇章级别数据: IWSLT 2017 TED (1906个文档,226K个句对 )
B. 德英
(不进行预训练,没有句子级别数据)
篇章级别数据:IWSLT 2014 TED (1361个文档,172个句对)