我一直试图弄清楚这两个模型中错误率和特征数量之间的相关性。我看了一些视频,视频的创建者说,一个简单的模型可以比一个复杂的模型更好。所以我认为我拥有的功能越多,错误率就越高。这在我的工作中并没有被证明是正确的,当我的特征越少时,错误率就会上升。我不确定我这样做是否不正确,或者视频中的那个人是否犯了错误。有人可以解释一下吗?我也很好奇特征与逻辑回归的错误率有何关系。
问问题
5820 次
1 回答
27
朴素贝叶斯和逻辑回归是“生成-判别对”,这意味着它们具有相同的模型形式(线性分类器),但它们以不同的方式估计参数。
对于特征 x 和标签 y,朴素贝叶斯从训练数据中估计一个联合概率 p(x,y) = p(y)*p(x|y)(即构建一个可以“生成”数据的模型) ,并使用贝叶斯规则来预测新测试实例的 p(y|x)。另一方面,逻辑回归通过最小化误差函数(更具“判别性”)直接从训练数据估计 p(y|x)。
这些差异对错误率有影响:
- 当训练实例很少时,逻辑回归可能会“过拟合”,因为没有足够的数据来可靠地估计 p(y|x)。朴素贝叶斯可能会做得更好,因为它模拟了整个联合分布。
- 当特征集很大(并且稀疏,如文本分类中的单词特征)时,朴素贝叶斯可能会“重复计算”彼此相关的特征,因为它假设每个 p(x|y) 事件是独立的,当它们是不是。通过在这些相关特征之间自然地“拆分差异”,逻辑回归可以做得更好。
如果特征真的(大部分)条件独立,那么两个模型实际上可能会随着越来越多的特征而改进,只要有足够的数据实例。当训练集大小相对于特征数量较小时,就会出现问题。朴素贝叶斯特征参数的先验,或逻辑回归的正则化方法(如 L1/Lasso 或 L2/Ridge)在这些情况下会有所帮助。
于 2013-10-02T17:55:09.183 回答