朴素贝叶斯和逻辑回归都可以完美地分类这两个数据集吗?我的理解是朴素贝叶斯可以,复杂项的逻辑回归可以对这些数据集进行分类。如果我错了,请帮忙。
数据集的图像在这里:
让我们在与您发布的数据集相似的两个数据集上运行这两种算法,看看会发生什么......
编辑我之前发布的答案不正确。我忘了考虑高斯朴素贝叶斯的方差。(之前的解决方案是使用具有固定恒等协方差的高斯的朴素贝叶斯,它给出了线性决策边界)。
事实证明,LR 在循环数据集上失败,而 NB 可以成功。两种方法都在矩形数据集上成功。
LR 决策边界是线性的,而 NB 边界是二次的(具有不同协方差的两个轴对齐高斯之间的边界)。
应用 NB,圆形数据集在大致相同的位置给出了两个均值,但具有不同的方差,从而导致大致圆形的决策边界 - 随着半径的增加,较高方差高斯的概率与较低方差高斯的概率相比增加。在这种情况下,内圆上的许多内部点被错误分类。
下面的两个图显示了具有固定方差的高斯 NB 解决方案。
在下图中,等值线表示 NB 解的概率等值线。这种高斯 NB 解决方案还学习了各个参数的方差,从而导致解决方案中的轴对齐协方差。
原则上,朴素贝叶斯/逻辑回归可以得到这两张图片中的第二张(右图),因为有一个完美分离的线性决策边界。
如果您在特征上使用具有类条件正态分布的朴素贝叶斯的连续版本,则可以分离,因为红色类的方差大于蓝色类的方差,因此您的决策边界将是圆形的。您最终会得到具有相同均值(两个环的中心点)的两个类的分布,但以红色类为条件的特征的方差将大于以蓝色类为条件的特征的方差,导致边缘某处的圆形决策边界。不过,这是一个非线性分类器。
只要直方图的宽度足够窄,就可以通过特征空间的直方图分箱获得相同的效果。在这种情况下,基于直方图特征向量,逻辑回归和朴素贝叶斯都可以工作。
您将如何在这些数据集上使用朴素贝叶斯?
在通常的形式中,朴素贝叶斯需要二进制/分类数据。