1

我现在正在使用朴素贝叶斯算法实现一个电子邮件过滤应用程序。我的应用程序使用来自 UCI 机器学习存储库的 Spambase 数据集。由于属性是连续的,我使用概率密度函数 (PDF) 计算概率。但是,当我使用 k 折交叉验证评估数据时,训练集的其中一个属性可能只包含 0。出于这个原因,我得到了 0 标准差,PDF 返回 NaN,这导致大量垃圾邮件没有正确分类到该训练集。我应该怎么做才能解决问题?

4

1 回答 1

2

您可以使用离散的 PDF,它总是有界的。

或者,只需忽略任何方差为零的属性。包含零方差的分布是没有意义的,因为它们实际上不会做任何事情。例如,你想知道我的年龄,然后我告诉你我生活在地球上。这不应该改变您的估计,因为您拥有的每一条数据都是针对地球上的人们的。

于 2012-09-10T01:37:22.940 回答