这是来自 Lingpipe doc在构建语言模型中的手册。但我只是部分理解其背后的理论。
我尤其不知道基本概率。
在这里,如何获得基数 p(d)。如果下面是 unigram 文件中令牌的一部分及其频率。
ab 20
aba 3
abd 2
abef 2
abkk 3
在这种情况下,什么是 lamda()、1-lamda()、extcount、numExtentions 和 Base P(ab)?这是一个问题,但它们被束缚了。
非常感谢。
这是来自 Lingpipe doc在构建语言模型中的手册。但我只是部分理解其背后的理论。
我尤其不知道基本概率。
在这里,如何获得基数 p(d)。如果下面是 unigram 文件中令牌的一部分及其频率。
ab 20
aba 3
abd 2
abef 2
abkk 3
在这种情况下,什么是 lamda()、1-lamda()、extcount、numExtentions 和 Base P(ab)?这是一个问题,但它们被束缚了。
非常感谢。