tokenize
使用mosesdecoder进行处理
1 | ~/work/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en < train.en > train.tok.en |
truecase
训练truecase模型
1 | ~/work/mosesdecoder/scripts/recaser/train-truecaser.perl -corpus train.tok.en -model model.tc.en |
应用truecase模型
1 | ~/work/mosesdecoder/scripts/recaser/truecase.perl -model model.tc.en < train.tok.en > train.tok.tc.en |
bpe
联合学习bpe codec 并得到 vocab
1 | subword-nmt learn-joint-bpe-and-vocab --input train.tok.tc.en train.tok.tc.de -s 30000 -o code.bpe30k --write-vocabulary vocab.bpe30k.en vocab.bpe30k.de |
应用 bpe
1 | subword-nmt apply-bpe -c code.bpe30k --vocabulary vocab.bpe30k.en < train.tok.tc.en > train.tok.tc.bpe30k.en |