我试图制作一个基线 MT 系统。只是为了检查它是如何工作的,我制作了只有 2000 个句子的源 (S) 和目标 (T) 语言语料库。第一步是为机器翻译 (MT) 系统准备数据。在这一步中,我们首先必须执行Baseline SMT中提到的标记化。我用过这段代码:
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr \
> ~/corpus/news-commentary-v8.fr-en.tok.fr
(说 S = 法语 & T = 英语)
2小时后我检查它仍在运行。我很好奇,因为它没有预料到。然后我只用了十句话。令我惊讶的是,已经 30 分钟了,它仍在运行。
我做错什么了吗?
PS:OS = Ubuntu 14.04.5 LTS Sony ultrabook 没有双启动。