杂质的测定方法有以下三种:
每种方法有什么区别和合适的用例?
如果 p_i非常小,那么对非常小的数字(基尼指数)进行乘法可能会导致舍入误差。因此,最好添加日志(熵)。根据您的定义,分类错误提供了一个粗略的估计,因为它使用单个最大的 p_i 来计算其值。
熵与其他杂质度量之间的差异,实际上通常是机器学习中的信息论方法与其他方法之间的差异,在于熵已在数学上被证明可以捕捉“信息”的概念。熵测度有许多分类定理(证明特定函数或数学对象是唯一满足一组标准的对象的定理),这些定理将哲学论证形式化,证明其意义是“信息”的测量值。
将此与其他方法(尤其是统计方法)进行对比,这些方法不是因为它们的哲学理由而选择的,而是主要是因为它们的经验理由——也就是说,它们似乎在实验中表现良好。它们表现良好的原因是它们包含在实验时可能发生的额外假设。
实际上,这意味着熵度量 (A) 在正确使用时不会过度拟合,因为它们没有对数据的任何假设,(B) 比随机度量更有可能表现得更好,因为它们可以泛化到任何数据集,但是 (C ) 特定数据集的性能可能不如采用假设的措施。
在决定在机器学习中使用哪些措施时,通常归结为长期与短期收益以及可维护性。熵度量通常由(A)和(B)长期工作,如果出现问题,更容易追踪和解释原因(例如获取训练数据的错误)。(C) 的其他方法可能会带来短期收益,但如果它们停止工作,则可能很难区分,例如基础设施中的错误与假设不再成立的数据的真正变化。
模型突然停止工作的一个典型例子是全球金融危机。银行家因短期收益而获得奖金,因此他们编写了在短期内表现良好的统计模型,而在很大程度上忽略了信息论模型。
我发现这种杂质测量的描述非常有用。除非您从头开始实施,否则大多数现有实施都使用单个预定的杂质测量。另请注意,基尼指数不是杂质的直接衡量标准,不是在其原始公式中,而且比您上面列出的要多得多。
我不确定我是否理解对小数字和基尼杂质测量的担忧......我无法想象在拆分节点时会发生这种情况。
我已经看到了有关这方面的非正式指导的各种努力,从“如果您使用常用指标之一,就不会有太大差异”,到更具体的建议。实际上,确定哪种方法最有效的唯一方法是尝试所有候选方法。
无论如何,这里有一些来自 Salford Systems(CART 供应商)的观点: