Document-level Neural Machine Translation with Inter-Sentence Attention. Shu Jiang, Rui Wang, Zuchao Li, Masao Utiyama, Kehai Chen, Eiichiro Sumita, Hai Zhao, Bao-liang Lu. ArXiv 1910.14528. [PDF]

动机

本文认为大部分篇章翻译只是引入大体的篇章上下文信息，但不是所有的上下文信息都对当前句子翻译有效，本文希望对上下文信息进行筛选。于是本文提出一个associated memory network（AMN）考虑句间关系，建模更加相关的上下文。(其实 SAN 和 QCN 都有对上下文进行筛选)

方法

（1）使用RNN对previous sentences（cj）进行编码，得到每个词的隐状态表示(不是很懂为什么要用RNN，不直接使用transformer，并且当前句子x也不用像c一样使用RNN编码)

（2）MultiHead Self-Attention更新每个句子的表示

（3）当前句子x的每个词和前面每个句子cj中的每个词算一个相似度分数

（4）对相似性分数按行做softmax作为最终的相似性分数

（5）得到句子级别上下文表示

（6）建模每个句子的权重

（7）得到篇章级别上下文

（8）在transformer encoder中融入篇章级别上下文信息

整体上来说，这种方法略显粗暴。

实验

作者在TED Talks, Subtitles, News三个数据集上验证了自己的模型有效性。

我认为实验还是存在一些不足：（1）没有跟SAN、QCN等工作进行对比（2）按照HAN公开代码，HAN是没有做BPE的，但是本文有做BPE，而本文中报的结果是HAN中报的没有做BPE的结果。

WITH LOVE OF WORLD

【论文笔记】Document-level Neural Machine Translation with Inter-Sentence Attention

动机

方法

实验