问题标签 [cart-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
325 浏览

r - rpart:如何删除“长”标签

我想知道有什么方法可以删除我 . 例如,在下面我不会删除ielabelstreetreelabelbranch #6 Clarity =l1,Sl2,Sl1,VS2

在此处输入图像描述

仅供参考,实际上在我的数据中,一个分支的标签是ID图像的一侧到另一侧!这就是为什么我想找到一种方法,不仅不显示标签,而且树会留下来!

任何有关解释的帮助都将受到高度赞赏。

0 投票
0 回答
500 浏览

r - 确定 rpart.control 参数

在 R 中进行 CART 分析时,是否有任何基于数据集的规则或标准来决定 rpart.control 参数?例如,什么是正确的 minsplit 和 minbucket 使用,以及我的数据集的哪些方面取决于它?我如何确定这一点?

0 投票
1 回答
1359 浏览

python - 是否可以在 scikit-learn 中实现 c4.5 算法?

我在文档中读到 sklearn 对树使用 CART 算法。

是否有要更改的特定属性以使其类似于 c4.5 实现?

0 投票
1 回答
364 浏览

python - Sklearn 的 DecisionTreeClassifier 和 CART 的区别

了解Sklearn的CART和DecisionTreeClassifier的区别。

在 Sklearn 的文档中,它说“ scikit-learn 使用了 CART 算法的优化版本”。但是,我在任何地方都找不到这种优化!

如果您能帮我弄清楚这里发生了什么样的优化以及两者之间有什么区别,那就太好了。

0 投票
0 回答
54 浏览

r - 是否可以将 R 中的 evtree 包用于面板数据/多年?

我想知道,是否可以使用 evtree 多年?

我有一个不平衡的面板数据集(8 年),有两组基于(二元)因变量(dv)。对于每一年,每个观测值的 dv 值可以是 0 或 1,因此构成了组成员资格。此外,我有多个预测变量 (pv),它们对 dv 的影响可能会随着时间而变化。

Evtree 通常对我来说似乎是正确的方法(至少一年)。我的目标是在多个时期训练 evtree 模型(以捕捉可能的时间效应),以便尽可能好地对两组进行分类。

非常感谢任何帮助。

提前致谢!

0 投票
0 回答
16 浏览

r - CART - 创建预测值时出错

我将原始数据集拆分为 0.7,检查了 prop.table。达到训练和测试数据的最佳比例。

创建分类树后,应用 bestcp 值和修剪树。

当我尝试跑步时-

我收到一个错误 -

$<-.data.frame( *tmp*, predict, value = c(1L, 1L, 1L, 1L, ) 中的错误:替换有 5000 行,数据有 3202

在谷歌中检查 - 因为 NA 值而被告知 - 但 NA 值是通过省略行来处理的。

请告知纠正措施。

0 投票
1 回答
47 浏览

r - 将条件变量添加到 R 中的随机森林模型

我想训练一个随机森林来进行分类预测。如果我想在预测模型中包含一组固定的自变量(例如 x1、x2 和 x3Y~.+x1+x2+x3在数据/在森林中创建分支/树,是否有一种简单的方法可以使用 R 中的 、 或其他包来执行此caret操作grf

这是一个示例:如果我想预测 iris 数据集中哪些花的萼片宽度超过 3.2,但我想在决定是否创建新分支时以花卉种类为条件,同时排除花卉种类作为可能的分裂变量。想象一下,我知道花种可以很好地预测萼片宽度,但我想知道还有哪些其他因素可以预测萼片宽度,这取决于物种:

当我查看此模型中的变量重要性时,我想知道其他参数(Sepal.length、Petal.length 和 Petal.width)的估计值取决于花 Type1、Type2 和 Type3,但是排除这些变量作为分支的可能变量。有没有办法告诉随机森林忽略这三个变量作为可能的分裂?

0 投票
0 回答
49 浏览

r - rpart包中的剪枝,以及参数“cp”的使用

根据 rpart 文档,参数“cp”起着以下作用:“不会尝试任何不会将整体失配度降低 cp 的分割。” 这听起来好像这些分裂根本不会进入树。

但是,我相信我下面的例子与此相矛盾。我相信实际发生的是 rpart 树在不考虑 cp 的情况下增长到很大,然后使用参数 cp 使用成本复杂性/最弱链接修剪进行修剪。这被广泛认为是构建树的“更好”方式,但它与文档相矛盾。

有没有其他人经历过这种差异?我错过了什么吗?

谢谢!

此外,超过 10,000 次试验,以下两个命令总是返回相同的树,但我相信文档使它看起来好像它们应该不同(可能)。

0 投票
0 回答
30 浏览

tensorflow - 在带有 CART 树的 TensorFlow 随机森林中使用什么杂质指数(基尼系数、熵?)?

我在tensorflow_decision_forests文档(https://github.com/tensorflow/decision-forests)(https://www.tensorflow.org/decision_forests/api_docs/python/tfdf/keras/wrappers/CartModelyggdrasil_decision_forests文档(https://github.com/google/yggdrasil-decision-forests)。

我也看过这两个库的代码,但我没有找到那个信息。我也很好奇是否可以指定要使用的杂质索引。

我正在寻找与 sklearn 决策树的类比,您可以在其中使用criterion参数指定杂质索引。 https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

对于 TensorFlow Random Forest,我只找到了一个参数uplift_split_score

uplift_split_score:仅适用于隆起模型。拆分器得分,即拆分器优化的得分。Rzepakowski 等人的“使用单一和多重处理的隆起建模的决策树”中介绍了这些分数。符号:p阳性结果的 q概率/平均值,对照组的概率/平均值。-KULLBACK_LEIBLERKL: - p log (p/q) -EUCLIDEAN_DISTANCEED: (pq)^2 -CHI_SQUAREDCS: (pq)^2/q 默认值:“KULLBACK_LEIBLER”。

我不确定这是否是一个好的线索。