python - 随机森林分类如何在幕后工作？

Question

这是随机森林分类如何工作的样本数据集。我知道通过选择随机 k 点然后取某种平均值来构建多个决策树？

但在这种情况下，我有 10 棵树，有 10 个不同的数据点，如果我要选择随机的 k 个点，它会像这样：

x_train = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
y_train = [0, 0, 1, 0, 1, 1, 1, 0, 0, 1]
object = RandomForestClassifier(n_estimators=10, criterion='entropy')
object.fit(x_train, y_train)

然后我们制作一个图并拆分 random_k_1 以便它在每个拆分中最大化一个类别。

那我们怎么办？比如取某种平均值？如果是，我们应该怎么做，我们只有 0, 1 作为 y^？对不起，我无法解释这个问题，我迷路了，无法描述这个问题。

random_k_1 = [[10, 0], [30, 1], [70, 1]]

score 0 · Accepted Answer

简而言之，随机森林使用决策树工作。它使用一种称为“Bootstrapping”或“Bagging”的技术来减少模型中的方差。

采用了许多决策树（在 sklearn 实现中，由定义n_estimators）。这些树中的每一个都可以在数据的随机子样本上进行训练。这试图使每棵树尽可能独立于其他树。一旦这些被训练，就会使用聚合技术。

从文档中引用：

输入样本的预测类别概率计算为森林中树木的平均预测类别概率。一棵树的类概率是叶子中同一类的样本的分数。

然后，预测只是具有最高平均类概率的类。

这种聚合降低了模型的方差，因此我们走向了低方差低偏差的最佳点。

我相信你的困惑就在这里。未对目标标签 y 进行聚合。对各种决策树的输出进行聚合。

为了简化，考虑这个例子。

您采用 11 个估计器，即 RandomForest 模型中的 11 个决策树。y 只能是 [0, 1] 整数。这些决策树中有 6 个预测 y 为 1，其中 5 个预测它为 0。在这种情况下，您选择整个森林的预测为 1。

python - 随机森林分类如何在幕后工作？

1 回答 1

Related

Reference