问题标签 [random-forest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 一个预测中的目标值数量
我使用 python 的 scikit-learn 模块来预测 CSV 文件中的一些值。我正在使用随机森林回归器来做到这一点。例如,我有 8 个训练值和 3 个值要预测 - 我必须使用哪些代码?作为要预测的值,我必须一次(A)或单独(B)给出所有目标值?
变体 A:
变体 B:
哪个版本是正确的?
提前致谢!
python - 随机森林分类器概率只有值 0, 0.1, 0.2... 1
我正在尝试使用随机森林对我的数据进行分类,但是当我生成分类器概率时,它的值总是在 5 位以内,例如 0、0.1、0.2、... 1。这是统计问题还是软件问题?我在 Mac 10.7.5 上的 Python 2.7.3 的 scikit-learn 合奏中使用 RandomForestClassifier。我的数据看起来像这样:
响应变量 y 是二进制的。有 15 个特征,都是实数或整数值,其中一些是二进制的。我有大约 2000 个训练点和 500 个测试。我将树的数量设置为 500,将每棵树尝试的功能数量设置为 8,并为其他所有内容使用默认值。训练模型后,我使用“predict_proba”函数生成概率并得到类似 0.90000000000000002 或 0.10000000000000001 的结果
我认为这个问题可能是由特定变量引起的,所以我一次只使用一个变量训练模型,重复五个变量。仅每个变量的概率都具有正常值,例如 0.5532。当我同时使用两个变量时,开始出现一些 0.70000 等值。当我使用更多变量时,我会得到更大的 0.700000 个类型值。
这是统计问题还是软件问题?Numpy 通过了测试:numpy.test(),但是 scipy.test() 和 sklearn.test() 都失败了。我过去使用过 sci-kit 学习包,在没有这个问题的情况下测试失败了。另外,我知道我应该修复这些软件包,但是我花了 20 个小时从源代码安装,然后是二进制软件包,然后阅读了 30 多个网页,了解其他人如何安装它或他们有什么错误。当他们说安装很容易时,我没有看到他们测试软件包。谢谢。
r - 提取与新观察相关联的每棵树的终端节点
我想提取随机森林 R 实现的终端节点。据我了解随机森林,您有一系列正交树。当您预测一个新的观测值(回归)时,它会进入所有这些树,然后对每棵树的预测进行平均。如果我不想平均,但可能对这些相应的观察结果进行线性回归,我需要一个与这个新观察结果“相关”的观察结果列表。我已经浏览了源代码,但还没有想出一种方法来获得它。谁能帮我?
r - R中的randomForest:是否有可能计算案例置信区间?
R 包randomForest报告森林中每棵树的均方误差。但是,我需要对数据中每个案例的置信度进行衡量。由于randomForest通过平均单个树的预测来计算个案预测,我想它也应该可以计算个案标准误差,从而计算置信区间。这可以使用输出的 randomForest 对象来完成(如果是这样:如何?)还是我必须深入研究源代码?
r - 使用 cforest/randomforest 预测进行并行预测(使用 doSNOW)
我试图通过拆分测试数据集(n = 35000)并让 R 在较小的块上运行来加快对测试数据集(n = 35000)的预测。该模型是用 生成的party::cforest
。
foreach
但是,在尝试使用with时,我无法让 R 计算即使是最小的部分%dopar%
。
predict(fit,newdata=a[1:100,])
我的预测函数对于和都需要大约 7 秒
foreach(i=1:10) %do% {predict(fit,newdata=a[1:10,])}
。
但是当我尝试使用时%dopar%
,R 似乎冻结了。不应该:
更快?或者并行化本身是否会以某种方式减慢 R 速度?
使用另一个函数进行测试运行(按照此处的建议重复计算 sqrt(3) )已显示出显着的改进,因此%dopar%
也可以正常工作。
使用 randomForest 进行预测的行为类似,不同之处在于,即使%do%
对于 10x1:10 的预测,也比仅预测 1:100 需要更多的时间。对于 randomForest,我并不关心,因为无论如何预测所有 35k 数据集都不是问题。顺便提一句。只有我,还是 cforest 需要更多时间和内存来完成所有事情?只有在 randomForest 像魅力一样工作时遇到麻烦..
(在 Windows 7、x64、8GB RAM、4 核/8 线程上运行 - 在 doSNOW 并行化集群中使用 6 个节点)
r - predict.randomForest argument nodes=TRUE
When I do predict on newdata for randomForest (R implementation) and set nodes=TRUE
what is returned?
It says it returns an n by ntree matrix, each column containing the node number that the cases fall in for that tree.
I dont understand how this works? What is the node number that the cases fall in for that tree? Are a tree's nodes numbered when they are generated in this implementaiton of rf?
Thank you.
r - R中的并行处理
我正在使用一个自定义随机森林函数,该函数需要一组基因组数据(大约 56k 列)中的起点和终点。
我想将列号拆分为子组,并允许单独处理每个子组以加快速度。我用以下代码尝试了这个(不成功):
其中 startMrk 是一个数值变量数组:1 4 8 12 16
而 endMrk 是另一个数组:3 7 11 15 19
对于这个例子,我希望一个核心以 1:3 运行样本,另一个以 4:7 运行,等等。我对 R 中的并行处理概念不熟悉,所以我非常愿意研究任何文档可用的。有人对我在并行处理或上述代码中缺少的东西有建议吗?
r - 使用插入符号时用于 rf (randomForest) 的 createGrid 出错
当我尝试创建一个参数网格以使用插入符号进行训练时,我得到了各种错误:
createGrid 的文档说:
并给出以下正确工作的示例:
有了这个,我做错了什么?
跟进问题:
len
as a argument tocreateGrid
和tuneLength
in the argument for之间有什么联系train
?可以len
和tuneLength
它们一起使用吗?他们是什么关系?
其他有用的线程:
如果有帮助,这里有一个线程描述了如何使用createGrid
in train
: caret
caret ::train: 指定模型生成参数
r - OOB错误率与混淆矩阵的一致性
在检查我的模型的统计数据时,看起来 中的数字与 in 中的数字confusion matrix
不一致。 OOB error rate
randomForest
如何从混淆矩阵中推导出 OOB 错误率?他们之间是什么关系?
在下面的示例中,我打印了两个模型的输出,一个适合分层抽样(使用 中的样本子集sampsize
),另一个不适合(即使用默认抽样方案,我认为它使用所有样本) .
我没有公开数据,但这里是函数调用:
r - Up-sampling in R - randomForest
I have a highly imbalanced data and want to up-sample the minority class to improve accuracy (the minority class is the object of interest).
I tried using the "sampsize" option in the "randomForest" function - but it only allows for down-sampling. I read someplace, the "classwt" option can be used - but i am not sure how to use it.
Can anyone suggest a way to run Random Forest in R by up-sampling the minority class (using the "randomForest" library or other such libraries).
Thanks.