我现在正在使用朴素贝叶斯算法实现一个电子邮件过滤应用程序。我的应用程序使用来自 UCI 机器学习存储库的 Spambase 数据集。由于属性是连续的,我使用概率密度函数 (PDF) 计算概率。但是,当我使用 k 折交叉验证评估数据时,训练集的其中一个属性可能只包含 0。出于这个原因,我得到了 0 标准差,PDF 返回 NaN,这导致大量垃圾邮件没有正确分类到该训练集。我应该怎么做才能解决问题?
问问题
1699 次
我现在正在使用朴素贝叶斯算法实现一个电子邮件过滤应用程序。我的应用程序使用来自 UCI 机器学习存储库的 Spambase 数据集。由于属性是连续的,我使用概率密度函数 (PDF) 计算概率。但是,当我使用 k 折交叉验证评估数据时,训练集的其中一个属性可能只包含 0。出于这个原因,我得到了 0 标准差,PDF 返回 NaN,这导致大量垃圾邮件没有正确分类到该训练集。我应该怎么做才能解决问题?