问题标签 [random-forest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - RF:一类的OOB精度高,另一类的精度非常低,类不平衡大
我是随机森林分类器的新手。我正在使用它对具有两个类的数据集进行分类。- 特征数量为 512。 - 数据比例为 1:4。即,75% 的数据来自第一类,25% 来自第二类。- 我正在使用 500 棵树。
分类器产生 21.52% 的袋外错误。第一类(由 75% 的训练数据表示)的每类误差为 0.0059。而第二类的分类误差非常高:0.965。
我正在寻找这种行为的解释,如果您有提高第二类准确性的建议。
我期待着您的帮助。
谢谢
忘了说我使用的是 R 并且在上面的测试中我使用了 1000 的节点大小。
在这里,我只用 10 棵树和 nodesize= 1 重复了训练(只是为了给出一个想法),下面是 R 中的函数调用和混淆矩阵:
- 随机森林(公式 = 标签 ~ .,数据 = chData30PixG12,ntree = 10,重要性 = TRUE,节点大小 = 1,keep.forest = FALSE,do.trace = 50)
随机森林类型:分类
树的数量:10
每次拆分尝试的变量数:22
OOB 估计错误率:24.46%
混淆矩阵:
不相关的,相关的,class.error
- 无关 37954 , 4510 , 0.1062076
- 相关 8775 , 3068 , 0.7409440
r - 来自 RandomForest 的 R 意外 NA 输出
我正在使用一个有很多 NA 的数据集。我知道前 6 列没有任何 NA。由于第一列是 ID 列,因此我将其省略。
我运行以下代码以仅选择在响应列中具有值的行:
然后,我使用以下代码将 sub1 用作 randomForest 中的数据集:
然后我运行这段代码来检查 NA 的输出:
如果输入的数据是干净的,我无法弄清楚为什么我会得到 NA。
有什么建议么?
r - R线性回归中的RandomForest尾部mtry
我正在使用 R 中的 randomForest 包(R 版本 2.13.1,randomForest 版本 4.6-2)进行回归,并注意到我的结果存在显着偏差:预测误差取决于响应变量的值。高值预测不足,低值预测过高。起初我怀疑这是我的数据的结果,但以下简单示例表明这是随机森林算法固有的:
毫无疑问,树方法在线性方面有其局限性,但即使是最简单的回归树,例如 R 中的 tree(),也不会表现出这种偏差。我无法想象社区不会意识到这一点,但没有发现任何提及,它通常是如何纠正的?感谢您的任何评论
编辑:这个问题的例子是有缺陷的,请参阅堆栈交换中的“RandomForest for regression in R - response distributiondependent bias”以获得改进的处理https://stats.stackexchange.com/questions/28732/randomforest-for-regression -in-r-response-distribution-dependent-bias
r - R编程,通过插入符号的随机森林
我是 R 的新手,我想使用 caret 包实现随机森林算法。
有什么有用的教程,一步一步来吗?
r - 在 R 中绘制随机森林模型的重要性变量
我在这里做错了什么?“下标越界”是什么意思?
我从革命 R 在线研讨会中获得了以下代码(第一个块)摘录,该研讨会有关 R 中的数据挖掘。我试图将其合并到我运行的 RF 模型中,但无法通过我认为的变量排序。我只想绘制变量的重要性。
我在下面提供了更多内容以提供上下文。但我真正错误的是第三行代码。第二个代码块是应用于我正在处理的数据时遇到的错误。谁能帮我解决这个问题?
我的错误:
machine-learning - 将特征误差纳入随机森林算法
我正在使用随机森林对大量天文物体进行分类,并且做得相对不错。但是,我想通过合并有关每个功能的方差(或误差条)的信息来进一步提高性能。
在天文学中,每次测量通常都有一个相关的误差线。例如,如果我测量红色和蓝色,每个颜色测量值都是亮度的测量值(在天文学中,即恒星的大小),误差,例如 R 等 14 +- 0.2,B 等12 + - 0.15。
我想弄清楚如何让随机森林使用错误栏作为额外的信息。有任何想法吗?
r - 如何使用 randomForest 包进行特征选择?
我正在使用 randomForest 来找出最重要的变量。我期待一些输出来定义模型的准确性,并根据变量的重要性对变量进行排名。但我现在有点困惑。我尝试了 randomForest,然后运行importance()
以提取变量的重要性。但是后来我看到了另一个命令rfcv
(用于特征选择的随机森林交叉验证),我想这应该是最适合这个目的的,但我对此的问题是:如何获取最重要变量的列表?运行后如何查看输出?使用哪个命令?
randomForest
另一件事:和有什么区别predict.randomForest
?
我对随机森林和 R 不是很熟悉,因此我们将不胜感激。
先感谢您!
r - 如何调用 randomForest predict 与 ROCR 一起使用?
我很难理解如何构建 ROC 曲线,现在我得出的结论是,我可能没有正确创建模型。我在类属性“y_n”为 0 或 1 的数据集中运行随机森林模型。出于预测目的,我将数据集划分为 bank_training 和 bank_testing。这是我做的步骤:
到目前为止我所做的是否正确?创建的 bankrf.pred 对象是一个列表对象,具有 2 个名为:聚合和个体的类。我不明白这两个类名是从哪里来的?此外,当我运行时:
这个总结是什么意思?数据集(训练和测试)分别为 22605 和 22606。如果有人可以向我解释发生了什么,我将不胜感激。我认为这一切都有问题。
当我尝试使用 ROCR 设计 ROC 曲线时,我使用以下代码:
我尝试创建 ROC 曲线的方式只是一个错误,还是从 randomForest 开始?
random - 随机森林查询
我正在研究一个基于随机森林的项目。我看到一个关于随机森林创建的 ppt (Rec08_Oct21.ppt)(www.cs.cmu.edu/~ggordon/10601/.../rec08/Rec08_Oct21.ppt)。我想问一个问题。在扫描随机选择的特征及其信息增益值后,我们选择特征 j 的 IG 最大值的特征。那么,我们如何使用这些信息进行拆分呢?在这之后我们如何进行?
regression - 多个输出(或任务)的随机森林回归
我有 d_x 输入特征和 d_y 输出的多输出回归问题。输出具有复杂的非线性相关结构。
我想使用随机森林进行回归。据我所知,用于回归的随机森林仅适用于单个输出,因此我必须训练 d_y 随机森林 - 每个输出一个。这忽略了它们的相关性。
是否存在考虑输出相关性的随机森林扩展?可能类似于多任务学习的高斯过程回归。
谢谢。