0

我正在使用 SRILM 的 ngram-count 命令行实用程序来尝试计算古腾堡语料库子集的三元模型。命令行是:

 -order 3 -kndiscount -text {$text} -lm {$lm} -gt2min 10 -gt3min 5 -vocab {$vocab} -unk

然而,我的一些台词被打折为 0(或者至少这就是我认为正在发生的原因。

-5.018952   roaming
-4.189117   roar    -0.2053203
-4.30369    roared  0    <-- discounted to zero?

如果我使用 -gt1min 0 或任何其他值并且实现了最小阈值,也会发生这种情况。我该如何防止这种情况发生?当我尝试将其转换为基于 n-gram 的 FST 并在输入句子中使用这些单词之一观察输入时,它会导致问题。

4

1 回答 1

0

根据本教程(第 17 页),您所指的数字是退避权重。有关更多信息,您可以阅读内容。

于 2012-10-30T16:37:34.190 回答