nlp - 如何使用 GIZA++ 解决 mkcls 占用大量内存和时间进行字对齐的问题？

Question

我正在使用GIZA++来对齐来自Europarl corpus的 bitexts 中的单词。

在我使用训练对齐模型之前GIZA++，我需要使用mkcls脚本来制作隐马尔可夫模型算法所需的类，如下所示：

mkcls -n10 -pcorp.tok.low.src -Vcorp.tok.low.src.vcb.classes

我已经尝试过使用小型 1000 行语料库，它可以正常工作并在几分钟内完成。现在我正在用 1,500,000 行的语料库上尝试它，它占用了我的一个 CPU 的 100%(Six-Core AMD Opteron(tm) Processor 2431 × 12)

在上课之前，我已经采取了必要的步骤来标记化，降低所有大写字母并过滤掉超过 40 个单词的行。

有人mkcls对 GIZA++ 有类似的经验吗？它是如何解决的？如果有人在 Europarl 语料库上做过同样的事情，那么您运行mkcls.

score 0 · Accepted Answer

尝试支持多线程的mgiza ( http://www.kyloo.net/software/doku.php/mgiza:overview )。它应该会显着减少完成任务所需的时间。

score 0 · Accepted Answer

由于和的脚本mkcls没有并行化，加上 Europarl 语料库 150 万个单词的句子和单词的数量，制作词汇课大约需要 1-2 个小时。MOSESGIZA++

其他前 GIZA++ 处理步骤（即plain2snt, snt2cooc）花费的时间和处理能力要少得多。

2 回答 2