1

我正在尝试使用以下命令生成 arpa 格式语言模型:

text2wngram < weather.txt | grep -v "</s> <s>" > weather.wngram
wngram2idngram -vocab weather.vocab < weather.wngram > weather.idngram 
idngram2lm -vocab_type 0 -idngram weather.idngram -vocab weather.vocab -arpa weather.lm

但是第二个命令wngram2idngram 不起作用并引发以下错误:

text2idngram:错误:必须指定 idngram 文件。

我如下更改参数,它可以工作。

wngram2idngram -vocab weather.vocab -idngram weather.idngram < weather.wngram

我的问题是哪一个是正确的?我正在使用 cmulmtk 版本 3。

4

1 回答 1

1

第二个变体是正确的。

同时,我们推荐使用 SRILM。

于 2015-11-01T22:51:25.423 回答