perl - moses-SMT 系统中的分词器即使使用 10 个句子也卡住了

Question

我试图制作一个基线 MT 系统。只是为了检查它是如何工作的，我制作了只有 2000 个句子的源 (S) 和目标 (T) 语言语料库。第一步是为机器翻译 (MT) 系统准备数据。在这一步中，我们首先必须执行Baseline SMT中提到的标记化。我用过这段代码：

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en    \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr    \
> ~/corpus/news-commentary-v8.fr-en.tok.fr

（说 S = 法语 & T = 英语）

2小时后我检查它仍在运行。我很好奇，因为它没有预料到。然后我只用了十句话。令我惊讶的是，已经 30 分钟了，它仍在运行。

我做错什么了吗？

PS：OS = Ubuntu 14.04.5 LTS Sony ultrabook 没有双启动。

score 2 · Accepted Answer

请按照以下步骤操作；

git clone https://github.com/moses-smt/mosesdecoder.git
cd mosesdecoder

git clone https://github.com/moses-smt/giza-pp.git
cd giza-pp
make

mkdir tools
cp giza-pp/GIZA++-v2/GIZA++ giza-pp/GIZA++-v2/snt2cooc.out giza-pp/mkcls-v2/mkcls tools

scripts/tokenizer/tokenizer.perl -l fr < ~/corpus/training/news-commentary-v8.fr-en.fr > ~/corpus/news-commentary-v8.fr-en.tok.fr

perl - moses-SMT 系统中的分词器即使使用 10 个句子也卡住了

1 回答 1

Related

Reference