linux - Moses 的语料库文件格式

Question

我正在使用 Moses 制作语言模型。

我按照此链接中的说明进行操作：基线系统：Moses

我有 google 1-gram 文件，看起来像：

</S>    95119665584
<S>     95119665584
,       30578667846
.       22077031422
<UNK>   21594821357
the     19401194714
-       16337125274
of      12765289150
and     12522922536

这意味着“of”这个词出现了 12,765,289,150 次。

现在我想从这个文件中创建一个语言模型（“构建语言模型”），

我不知道这种文件格式是否适用于 Moses。

在本教程中，他们正在使用“europarl-v6.en”，但我无法在网上找到它来检查文件格式。

最后编辑：

我需要将每个字母表示为单词，因此“hello”变成了“hell o”。

在按照我所说的表示每个单词之后，我应该使用哪种格式？

应该是：

o f
o f
o f
a n d
a n d

或者像原来的格式：

o f       12765289150
a n d     12522922536

或者也许是其他格式？

它仍然算作 google n-gram 吗？

我点击了链接：如何使用 Google Web N-gram corpus to build an LM as @ MukundKRoy 建议，但我不知道如何在我的情况下使用它（1-gram,2-gram ...my新文件不是 const）。

如果有人能告诉我这个文件应该是什么格式以便尽可能简单地与 SRILM 一起使用，我会很高兴。谢谢

score 1 · Accepted Answer

SRILM 正在处理 1-2-3..-grams，不要打扰。

我做过类似的事情，看看这里：

Moses 安装和培训贯穿始终

在PART II - Build a Model, sectionBuild Language Model中，它与 google n-grams 完美配合。

让我知道这是否对你有用。

score 0 · Accepted Answer

您可以使用它CMU-Cambridge Statistical Language Modeling Toolkit来构建您的语言模型。参考wfreq2vocab和text2wngram。我认为这种 LM 格式适用于 moses。

linux - Moses 的语料库文件格式

最后编辑：

2 回答 2

Related

Reference