我相信如果您计算单词出现的文档数量,而不是单词出现的总次数,您的模型会更准确地分类。换句话说
对“提果”进行分类:
“我喜欢香蕉。”
应称重不超过或少于
“香蕉!香蕉!香蕉!我喜欢它们。”
所以你的问题的答案是 100/200 = 0.5。
Wikipedia 上对 Document Classification 的描述也支持我的结论
那么给定文档 D 包含所有单词 W 的概率,给定类别 C,为
http://en.wikipedia.org/wiki/Naive_Bayes_classifier
换句话说,文档分类算法 Wikipedia 描述了测试给定文档包含多少分类词列表。
顺便说一句,更高级的分类算法将检查 N 个单词的序列,而不仅仅是单个单词,其中 N 可以根据您愿意用于计算的 CPU 资源量来设置。
更新
我的直接经验是基于简短的文件。我想强调@BenAllison 在评论中指出的研究表明我的答案对于较长的文档无效。具体来说
一个弱点是,通过仅考虑术语的存在或不存在,BIM 忽略了术语频率中固有的信息。例如,在所有条件相同的情况下,我们期望如果一个单词出现 1 次是一个文档属于某个类的好线索,那么 5 次出现应该更具预测性。
一个相关的问题涉及文档长度。随着文档变长,使用的不同单词的数量以及因此在 BIM 中等于 1 的 x(j) 值的数量通常会增加。
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.46.1529