我使用 kenlm 和 berkeleylm 构建 ngram 语言模型,但它们给 token 的概率非常不同。
kenlm 给出:
ngram 1=164482
ngram 2=4355352
ngram 3=15629476
\1-grams:
-6.701107 <unk> 0
0 <s> -1.9270477
-1.8337007 </s> 0
而 berkeleylm 给出:
\data\
ngram 1=164481
ngram 2=4291478
ngram 3=15629476
\1-grams:
-99.000000 <s> -2.079426
-1.833699 </s>
and no <unk> token probability
我想知道他们为什么以不同的方式处理这些问题以及这些差异如何导致不同的结果?