Unsupervised Domain Adaptation for Neural Machine Translation with Iterative Back Translation. Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits. AAAI 2020. [PDF]
动机
构造领域平行数据成本很高,如何在没有领域平行数据的情况下训练领域翻译模型显得尤为重要。本文想要解决的就是非监督领域适应NMT问题,提出了一种新的构造领域平行数据的方法:迭代回翻。
方法
本文提出一种基于transformer的模型框架,修改了transformer的encoder和decoder的输入,加入了language embedding,该模型具有以下特点:
1.源语言和目标语言共享bpe词表
2.源语言和目标语言共享隐空间
本文使用该模型用来训练语言模型、S2T翻译模型、T2S翻译模型,并且它们共享参数。
训练过程分三个步骤:
1.使用领域单语数据训练语言模型
2.使用S2T翻译模型构造伪平行数据训练T2S模型,使用T2S翻译模型构造伪平行数据训练S2T模型
*公式中应该是作者笔误,顺序写错了。
3.使用平行数据训练模型
不断迭代三个步骤直到参数收敛。
算法表示如下
实验
- COPY:混合(t_in, t_in)和(s_out, t_out),一起训练nmt
- BACK:使用Model_out构造伪平行in-domain数据,混合out-domain数据
- DALI:使用in-domain词表翻译t_in sent,构造伪平行数据,finetune Model_out
- DAFE:多任务,NMT_out和LM_in (insert domain and task embedding)
- IBT: 迭代回翻,但不使用out-domain数据(也就是没有步骤三,完全无监督翻译)
- IBT+OUTD: 使用out-domain数据训练步骤三
- IBT+BACK: 使用伪平行数据和out-domain数据一起训练步骤三
消融实验