Task-Oriented Dialog Systems that Consider Multiple Appropriate Responses under the Same Context. Yichi Zhang, Zhijian Ou, Zhou Yu. [PDF]
动机
在对话中,对于同一句话,可以有多种回复。但是,现有模型往往趋于生成出现概率最高的回复,而忽视了概率较低的回复。本文通过数据增强的方法,使得模型具备生成多样化回复的能力。
方法
数据增强
在数据预处理阶段,在整个数据集中,找出所有的dialogue state相同的system actions,作为ground truth的补充增强。
整体方法
训练过程中,所有可能的回复概率都要最大,而不只需要ground truth概率最大。
模型结构
1 encoder + 3 decoder
作者认为通过这样训练,模型就具备了生成多样性回复的能力,在测试的时候可以通过multi beam search、top-k等方式生成多样性回复。
实验
作者本次实验主要在数据集MultiWoZ进行。