我正在使用 Moses 制作语言模型。
我按照此链接中的说明进行操作:基线系统:Moses
我有 google 1-gram 文件,看起来像:
</S> 95119665584
<S> 95119665584
, 30578667846
. 22077031422
<UNK> 21594821357
the 19401194714
- 16337125274
of 12765289150
and 12522922536
这意味着“of”这个词出现了 12,765,289,150 次。
现在我想从这个文件中创建一个语言模型(“构建语言模型”),
我不知道这种文件格式是否适用于 Moses。
在本教程中,他们正在使用“europarl-v6.en”,但我无法在网上找到它来检查文件格式。
最后编辑:
我需要将每个字母表示为单词,因此“hello”变成了“hell o”。
在按照我所说的表示每个单词之后,我应该使用哪种格式?
应该是:
o f
o f
o f
a n d
a n d
或者像原来的格式:
o f 12765289150
a n d 12522922536
或者也许是其他格式?
它仍然算作 google n-gram 吗?
我点击了链接:如何使用 Google Web N-gram corpus to build an LM as @ MukundKRoy 建议,但我不知道如何在我的情况下使用它(1-gram,2-gram ...my新文件不是 const)。
如果有人能告诉我这个文件应该是什么格式以便尽可能简单地与 SRILM 一起使用,我会很高兴。谢谢