1

我试图制作一个基线 MT 系统。只是为了检查它是如何工作的,我制作了只有 2000 个句子的源 (S) 和目标 (T) 语言语料库。第一步是为机器翻译 (MT) 系统准备数据。在这一步中,我们首先必须执行Baseline SMT中提到的标记化。我用过这段代码:

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en    \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr    \
> ~/corpus/news-commentary-v8.fr-en.tok.fr

(说 S = 法语 & T = 英语)

2小时后我检查它仍在运行。我很好奇,因为它没有预料到。然后我只用了十句话。令我惊讶的是,已经 30 分钟了,它仍在运行。

我做错什么了吗?

PS:OS = Ubuntu 14.04.5 LTS Sony ultrabook 没有双启动。

4

1 回答 1

2

请按照以下步骤操作;

git clone https://github.com/moses-smt/mosesdecoder.git
cd mosesdecoder

git clone https://github.com/moses-smt/giza-pp.git
cd giza-pp
make

mkdir tools
cp giza-pp/GIZA++-v2/GIZA++ giza-pp/GIZA++-v2/snt2cooc.out giza-pp/mkcls-v2/mkcls tools

scripts/tokenizer/tokenizer.perl -l fr < ~/corpus/training/news-commentary-v8.fr-en.fr > ~/corpus/news-commentary-v8.fr-en.tok.fr
于 2020-08-13T05:52:51.633 回答