1

这是来自 Lingpipe doc在构建语言模型中的手册。但我只是部分理解其背后的理论。

我尤其不知道基本概率。

在此处输入图像描述

在此处输入图像描述

在这里,如何获得基数 p(d)。如果下面是 unigram 文件中令牌的一部分及其频率。

ab  20
aba 3
abd 2
abef 2
abkk 3

在这种情况下,什么是 lamda()、1-lamda()、extcount、numExtentions 和 Base P(ab)?这是一个问题,但它们被束缚了。

非常感谢。

4

0 回答 0