python - 从决策树中获取分类概率

Question

我正在实现基于 CART 算法的决策树，我有一个问题。现在我可以对数据进行分类，但我的任务不仅仅是对数据进行分类。我希望在端节点中有正确分类的概率。例如。我有包含 A 类和 B 类数据的数据集。当我将某个类的实例放入树中时，我想查看该实例属于 A 类和 B 类的概率。我该怎么做？如何改进 CART 以在端节点中具有概率分布？

score 0 · Accepted Answer

当您使用训练数据集训练树时，每次对数据进行拆分时，左右节点都会以一定比例的 A 类和 B 类实例结束。 A 类实例的百分比 (或 B) 类可以解释为概率。

例如，假设您的训练数据集包含来自 A 类的 50 个项目和来自 B 类的 50 个项目。您通过将数据拆分一次来构建一个级别的树。假设拆分后，您的左节点最终有 40 个 A 类实例和 10 个 B 类实例，右节点有 10 个 A 类实例和 40 个 B 类实例。现在节点中的概率为 40/(对于左节点中的 A 类，10+40) = 80%，对于左节点中的 A 类，10/(10+40) = 20%（反之亦然，对于 B 类）。

这同样适用于更深的树：您计算类的实例并计算比例。

python - 从决策树中获取分类概率

1 回答 1

Related

Reference