Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用一个数据集来预测一个人是否患有糖尿病。如果在我的数据集中,糖尿病的负面观察数量是正面观察的 10 倍,是否已经考虑到我的贝叶斯算法只会学习和预测负面结果,因为它比其他观察结果更多?
假设您先前的结果概率是:P(not_diabetic) = 0.9 和 P(diabetic) = 0.1。
这是训练集不平衡的一个例子,会对学习者的行为产生不利影响。将 P(diabetic)>0.5 的病例分类为糖尿病,将其余病例分类为非糖尿病不会在您的病例中产生良好的结果。
当你验证你的分类器时,你需要使用一种方法来考虑你的训练集的不平衡先验对你的后验概率的影响,例如贝叶斯信息奖励。
您可以查看这篇论文,了解不平衡训练集对贝叶斯分类器的影响的一般性讨论。