我必须实现一个朴素贝叶斯分类器来将文档分类为一个类。因此,在获得属于类的项的条件概率时,连同拉普拉斯平滑,我们有:
prob(t | c) = Num(c 类文档中的单词出现次数) + 1 / Num(c 类文档) + |V|
它是一个伯努利模型,有 1 或 0,词汇量非常大,可能有 20000 个单词等等。因此,由于词汇量大,拉普拉斯平滑不会给出非常小的值,还是我做错了什么。
根据此链接的伪代码:http: //nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html,对于伯努利模型,我们只需添加 2 而不是 |V| . 为什么这样?