machine-learning - 决策树学习和杂质

Question

杂质的测定方法有以下三种：

基尼指数

分类错误

每种方法有什么区别和合适的用例？

score 6 · Accepted Answer

如果 p_i非常小，那么对非常小的数字（基尼指数）进行乘法可能会导致舍入误差。因此，最好添加日志（熵）。根据您的定义，分类错误提供了一个粗略的估计，因为它使用单个最大的 p_i 来计算其值。

score 4 · Accepted Answer

熵与其他杂质度量之间的差异，实际上通常是机器学习中的信息论方法与其他方法之间的差异，在于熵已在数学上被证明可以捕捉“信息”的概念。熵测度有许多分类定理（证明特定函数或数学对象是唯一满足一组标准的对象的定理），这些定理将哲学论证形式化，证明其意义是“信息”的测量值。

将此与其他方法（尤其是统计方法）进行对比，这些方法不是因为它们的哲学理由而选择的，而是主要是因为它们的经验理由——也就是说，它们似乎在实验中表现良好。它们表现良好的原因是它们包含在实验时可能发生的额外假设。

实际上，这意味着熵度量 (A) 在正确使用时不会过度拟合，因为它们没有对数据的任何假设，(B) 比随机度量更有可能表现得更好，因为它们可以泛化到任何数据集，但是 (C ) 特定数据集的性能可能不如采用假设的措施。

在决定在机器学习中使用哪些措施时，通常归结为长期与短期收益以及可维护性。熵度量通常由（A）和（B）长期工作，如果出现问题，更容易追踪和解释原因（例如获取训练数据的错误）。(C) 的其他方法可能会带来短期收益，但如果它们停止工作，则可能很难区分，例如基础设施中的错误与假设不再成立的数据的真正变化。

模型突然停止工作的一个典型例子是全球金融危机。银行家因短期收益而获得奖金，因此他们编写了在短期内表现良好的统计模型，而在很大程度上忽略了信息论模型。

score 3 · Accepted Answer

我发现这种杂质测量的描述非常有用。除非您从头开始实施，否则大多数现有实施都使用单个预定的杂质测量。另请注意，基尼指数不是杂质的直接衡量标准，不是在其原始公式中，而且比您上面列出的要多得多。

我不确定我是否理解对小数字和基尼杂质测量的担忧......我无法想象在拆分节点时会发生这种情况。

score 1 · Accepted Answer

我已经看到了有关这方面的非正式指导的各种努力，从“如果您使用常用指标之一，就不会有太大差异”，到更具体的建议。实际上，确定哪种方法最有效的唯一方法是尝试所有候选方法。

无论如何，这里有一些来自 Salford Systems（CART 供应商）的观点：

4 回答 4