machine-learning - 线性判别分析与朴素贝叶斯

Question

LDA vs Naive Bayes 在机器学习分类方面的优缺点是什么？

我知道一些差异，比如朴素贝叶斯假设变量是独立的，而 LDA 假设高斯类条件密度模型，但我不明白什么时候使用 LDA 以及什么时候使用 NB 取决于具体情况？

score 8 · Accepted Answer

这两种方法都非常简单，所以很难说哪一种会更好。尝试两者并计算测试准确性通常更快。但这里的特征列表通常表明某些方法不太可能产生良好的结果。这一切都归结为数据。

朴素贝叶斯

朴素贝叶斯分类器的第一个缺点是特征独立性假设。在实践中，数据是多维的，并且不同的特征确实相关。因此，结果可能非常糟糕，尽管并不总是很重要。如果您确定特征是依赖的（例如图像的像素），不要指望朴素贝叶斯会炫耀。

另一个问题是数据稀缺。对于特征的任何可能值，通过频率论方法估计可能性。这可能导致概率接近 0 或 1，进而导致数值不稳定和更糟糕的结果。

第三个问题出现在连续特征上。朴素贝叶斯分类器仅适用于分类变量，因此必须将连续特征转换为离散特征，从而丢弃大量信息。如果数据中存在连续变量，则这是反对朴素贝叶斯的强烈迹象。

如果类不平衡，即不同类中的对象数量差异很大，LDA 就不能很好地工作。解决方案是获取更多数据，这可能非常容易或几乎不可能，具体取决于任务。

LDA 的另一个缺点是它不适用于非线性问题，例如甜甜圈形状点云的分离，但在高维空间中很难立即发现它。通常你在看到 LDA 不工作后就会明白这一点，但如果已知数据是非常非线性的，这就是反对 LDA 的强烈信号。

此外，LDA 可能对过度拟合很敏感，需要仔细验证/测试。