0

我正在使用 Moses 制作语言模型。

我按照此链接中的说明进行操作:基线系统:Moses

我有 google 1-gram 文件,看起来像:

</S>    95119665584
<S>     95119665584
,       30578667846
.       22077031422
<UNK>   21594821357
the     19401194714
-       16337125274
of      12765289150
and     12522922536

这意味着“of”这个词出现了 12,765,289,150 次。

现在我想从这个文件中创建一个语言模型(“构建语言模型”),

我不知道这种文件格式是否适用于 Moses。

在本教程中,他们正在使用“europarl-v6.en”,但我无法在网上找到它来检查文件格式。

最后编辑:

我需要将每个字母表示为单词,因此“hello”变成了“hell o”。

在按照我所说的表示每个单词之后,我应该使用哪种格式?

应该是:

o f
o f
o f
a n d
a n d

或者像原来的格式:

o f       12765289150
a n d     12522922536

或者也许是其他格式?

它仍然算作 google n-gram 吗?

我点击了链接:如何使用 Google Web N-gram corpus to build an LM as @ MukundKRoy 建议,但我不知道如何在我的情况下使用它(1-gram,2-gram ...my新文件不是 const)。

如果有人能告诉我这个文件应该是什么格式以便尽可能简单地与 SRILM 一起使用,我会很高兴。谢谢

4

2 回答 2

1

SRILM 正在处理 1-2-3..-grams,不要打扰。

我做过类似的事情,看看这里:

Moses 安装和培训贯穿始终

PART II - Build a Model, sectionBuild Language Model中,它与 google n-grams 完美配合。

让我知道这是否对你有用。

于 2013-01-21T15:08:59.230 回答
0

您可以使用它CMU-Cambridge Statistical Language Modeling Toolkit来构建您的语言模型。参考wfreq2vocabtext2wngram。我认为这种 LM 格式适用于 moses。

于 2013-01-17T03:42:56.950 回答