0%

tokenize、truecase与bpe

tokenize

使用mosesdecoder进行处理

1
2
3
~/work/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en < train.en > train.tok.en

~/work/mosesdecoder/scripts/tokenizer/tokenizer.perl -l de < train.de > train.tok.de

truecase

训练truecase模型

1
2
3
~/work/mosesdecoder/scripts/recaser/train-truecaser.perl -corpus train.tok.en -model model.tc.en

~/work/mosesdecoder/scripts/recaser/train-truecaser.perl -corpus train.tok.de -model model.tc.de

应用truecase模型

1
2
3
~/work/mosesdecoder/scripts/recaser/truecase.perl -model model.tc.en < train.tok.en > train.tok.tc.en

~/work/mosesdecoder/scripts/recaser/truecase.perl -model model.tc.en < train.tok.de > train.tok.tc.de

bpe

联合学习bpe codec 并得到 vocab

1
subword-nmt learn-joint-bpe-and-vocab --input train.tok.tc.en train.tok.tc.de -s 30000 -o code.bpe30k --write-vocabulary vocab.bpe30k.en vocab.bpe30k.de

应用 bpe

1
2
3
subword-nmt apply-bpe -c code.bpe30k --vocabulary vocab.bpe30k.en < train.tok.tc.en > train.tok.tc.bpe30k.en

subword-nmt apply-bpe -c code.bpe30k --vocabulary vocab.bpe30k.de < train.tok.tc.de > train.tok.tc.bpe30k.de