1

我正在使用GIZA++来对齐来自Europarl corpus的 bitexts 中的单词。

在我使用 训练对齐模型之前GIZA++,我需要使用mkcls脚本来制作隐马尔可夫模型算法所需的类,如下所示:

mkcls -n10 -pcorp.tok.low.src -Vcorp.tok.low.src.vcb.classes

我已经尝试过使用小型 1000 行语料库,它可以正常工作并在几分钟内完成。现在我正在用 1,500,000 行的语料库上尝试它,它占用了我的一个 CPU 的 100%(Six-Core AMD Opteron(tm) Processor 2431 × 12)

在上课之前,我已经采取了必要的步骤来标记化,降低所有大写字母并过滤掉超过 40 个单词的行。

有人mkcls对 GIZA++ 有类似的经验吗?它是如何解决的?如果有人在 Europarl 语料库上做过同样的事情,那么您运行mkcls.

4

2 回答 2

0

尝试支持多线程的mgiza ( http://www.kyloo.net/software/doku.php/mgiza:overview )。它应该会显着减少完成任务所需的时间。

于 2013-04-08T13:06:21.047 回答
0

由于和的脚本mkcls没有并行化,加上 Europarl 语料库 150 万个单词的句子和单词的数量,制作词汇课大约需要 1-2 个小时。MOSESGIZA++

其他前 GIZA++ 处理步骤(即plain2snt, snt2cooc)花费的时间和处理能力要少得多。

于 2013-02-23T02:09:36.593 回答