10

杂质的测定方法有以下三种:

熵

基尼指数

分类错误

每种方法有什么区别和合适的用例?

4

4 回答 4

6

如果 p_i非常小,那么对非常小的数字(基尼指数)进行乘法可能会导致舍入误差。因此,最好添加日志(熵)。根据您的定义,分类错误提供了一个粗略的估计,因为它使用单个最大的 p_i 来计算其值。

于 2011-02-08T20:56:27.077 回答
4

熵与其他杂质度量之间的差异,实际上通常是机器学习中的信息论方法与其他方法之间的差异,在于熵已在数学上被证明可以捕捉“信息”的概念。熵测度有许多分类定理(证明特定函数或数学对象是唯一满足一组标准的对象的定理),这些定理将哲学论证形式化,证明其意义是“信息”的测量值。

将此与其他方法(尤其是统计方法)进行对比,这些方法不是因为它们的哲学理由而选择的,而是主要是因为它们的经验理由——也就是说,它们似乎在实验中表现良好。它们表现良好的原因是它们包含在实验时可能发生的额外假设。

实际上,这意味着熵度量 (A) 在正确使用时不会过度拟合,因为它们没有对数据的任何假设,(B) 比随机度量更有可能表现得更好,因为它们可以泛化到任何数据集,但是 (C ) 特定数据集的性能可能不如采用假设的措施。

在决定在机器学习中使用哪些措施时,通常归结为长期与短期收益以及可维护性。熵度量通常由(A)和(B)长期工作,如果出现问题,更容易追踪和解释原因(例如获取训练数据的错误)。(C) 的其他方法可能会带来短期收益,但如果它们停止工作,则可能很难区分,例如基础设施中的错误与假设不再成立的数据的真正变化。

模型突然停止工作的一个典型例子是全球金融危机。银行家因短期收益而获得奖金,因此他们编写了在短期内表现良好的统计模型,而在很大程度上忽略了信息论模型。

于 2013-09-15T11:57:18.780 回答
3

我发现这种杂质测量的描述非常有用。除非您从头开始实施,否则大多数现有实施都使用单个预定的杂质测量。另请注意,基尼指数不是杂质的直接衡量标准,不是在其原始公式中,而且比您上面列出的要多得多。

我不确定我是否理解对小数字和基尼杂质测量的担忧......我无法想象在拆分节点时会发生这种情况。

于 2011-02-08T21:15:32.600 回答
1

我已经看到了有关这方面的非正式指导的各种努力,从“如果您使用常用指标之一,就不会有太大差异”,到更具体的建议。实际上,确定哪种方法最有效的唯一方法是尝试所有候选方法。

无论如何,这里有一些来自 Salford Systems(CART 供应商)的观点:

拆分规则真的很重要吗?

于 2011-02-16T08:30:58.697 回答