0

我正在实现基于 CART 算法的决策树,我有一个问题。现在我可以对数据进行分类,但我的任务不仅仅是对数据进行分类。我希望在端节点中有正确分类的概率。例如。我有包含 A 类和 B 类数据的数据集。当我将某个类的实例放入树中时,我想查看该实例属于 A 类和 B 类的概率。我该怎么做?如何改进 CART 以在端节点中具有概率分布?

4

1 回答 1

0

当您使用训练数据集训练树时,每次对数据进行拆分时,左右节点都会以一定比例的 A 类和 B 类实例结束。 A 类实例的百分比 (或 B) 类可以解释为概率。

例如,假设您的训练数据集包含来自 A 类的 50 个项目和来自 B 类的 50 个项目。您通过将数据拆分一次来构建一个级别的树。假设拆分后,您的左节点最终有 40 个 A 类实例和 10 个 B 类实例,右节点有 10 个 A 类实例和 40 个 B 类实例。现在节点中的概率为 40/(对于左节点中的 A 类,10+40) = 80%,对于左节点中的 A 类,10/(10+40) = 20%(反之亦然,对于 B 类)。

这同样适用于更深的树:您计算类的实例并计算比例。

于 2014-04-24T09:06:48.523 回答