Document-level Neural Machine Translation with Inter-Sentence Attention. Shu Jiang, Rui Wang, Zuchao Li, Masao Utiyama, Kehai Chen, Eiichiro Sumita, Hai Zhao, Bao-liang Lu. ArXiv 1910.14528. [PDF]
动机
本文认为大部分篇章翻译只是引入大体的篇章上下文信息,但不是所有的上下文信息都对当前句子翻译有效,本文希望对上下文信息进行筛选。于是本文提出一个associated memory network(AMN)考虑句间关系,建模更加相关的上下文。(其实 SAN 和 QCN 都有对上下文进行筛选)
方法
(1)使用RNN对previous sentences(cj)进行编码,得到每个词的隐状态表示(不是很懂为什么要用RNN,不直接使用transformer,并且当前句子x也不用像c一样使用RNN编码)
(2)MultiHead Self-Attention更新每个句子的表示
(3)当前句子x的每个词和前面每个句子cj中的每个词算一个相似度分数
(4)对相似性分数按行做softmax作为最终的相似性分数
(5)得到句子级别上下文表示
(6)建模每个句子的权重
(7)得到篇章级别上下文
(8)在transformer encoder中融入篇章级别上下文信息
整体上来说,这种方法略显粗暴。
实验
作者在TED Talks, Subtitles, News三个数据集上验证了自己的模型有效性。
我认为实验还是存在一些不足:(1)没有跟SAN、QCN等工作进行对比(2)按照HAN公开代码,HAN是没有做BPE的,但是本文有做BPE,而本文中报的结果是HAN中报的没有做BPE的结果。