我正在使用 SRILM 的 ngram-count 命令行实用程序来尝试计算古腾堡语料库子集的三元模型。命令行是:
-order 3 -kndiscount -text {$text} -lm {$lm} -gt2min 10 -gt3min 5 -vocab {$vocab} -unk
然而,我的一些台词被打折为 0(或者至少这就是我认为正在发生的原因。
-5.018952 roaming
-4.189117 roar -0.2053203
-4.30369 roared 0 <-- discounted to zero?
如果我使用 -gt1min 0 或任何其他值并且实现了最小阈值,也会发生这种情况。我该如何防止这种情况发生?当我尝试将其转换为基于 n-gram 的 FST 并在输入句子中使用这些单词之一观察输入时,它会导致问题。