我正在使用GIZA++来对齐来自Europarl corpus的 bitexts 中的单词。
在我使用 训练对齐模型之前GIZA++
,我需要使用mkcls脚本来制作隐马尔可夫模型算法所需的类,如下所示:
mkcls -n10 -pcorp.tok.low.src -Vcorp.tok.low.src.vcb.classes
我已经尝试过使用小型 1000 行语料库,它可以正常工作并在几分钟内完成。现在我正在用 1,500,000 行的语料库上尝试它,它占用了我的一个 CPU 的 100%(Six-Core AMD Opteron(tm) Processor 2431 × 12)
在上课之前,我已经采取了必要的步骤来标记化,降低所有大写字母并过滤掉超过 40 个单词的行。
有人mkcls
对 GIZA++ 有类似的经验吗?它是如何解决的?如果有人在 Europarl 语料库上做过同样的事情,那么您运行mkcls
.