“random-forest”的相关标签问题

0 投票

2 回答

806 浏览

python - 一个预测中的目标值数量

我使用 python 的 scikit-learn 模块来预测 CSV 文件中的一些值。我正在使用随机森林回归器来做到这一点。例如，我有 8 个训练值和 3 个值要预测 - 我必须使用哪些代码？作为要预测的值，我必须一次（A）或单独（B）给出所有目标值？

变体 A：

变体 B：

哪个版本是正确的？

提前致谢！

2013-01-24T16:55:47.063

0 投票

1 回答

2791 浏览

python - 随机森林分类器概率只有值 0, 0.1, 0.2... 1

我正在尝试使用随机森林对我的数据进行分类，但是当我生成分类器概率时，它的值总是在 5 位以内，例如 0、0.1、0.2、... 1。这是统计问题还是软件问题？我在 Mac 10.7.5 上的 Python 2.7.3 的 scikit-learn 合奏中使用 RandomForestClassifier。我的数据看起来像这样：

响应变量 y 是二进制的。有 15 个特征，都是实数或整数值，其中一些是二进制的。我有大约 2000 个训练点和 500 个测试。我将树的数量设置为 500，将每棵树尝试的功能数量设置为 8，并为其他所有内容使用默认值。训练模型后，我使用“predict_proba”函数生成概率并得到类似 0.90000000000000002 或 0.10000000000000001 的结果

我认为这个问题可能是由特定变量引起的，所以我一次只使用一个变量训练模型，重复五个变量。仅每个变量的概率都具有正常值，例如 0.5532。当我同时使用两个变量时，开始出现一些 0.70000 等值。当我使用更多变量时，我会得到更大的 0.700000 个类型值。

这是统计问题还是软件问题？Numpy 通过了测试：numpy.test()，但是 scipy.test() 和 sklearn.test() 都失败了。我过去使用过 sci-kit 学习包，在没有这个问题的情况下测试失败了。另外，我知道我应该修复这些软件包，但是我花了 20 个小时从源代码安装，然后是二进制软件包，然后阅读了 30 多个网页，了解其他人如何安装它或他们有什么错误。当他们说安装很容易时，我没有看到他们测试软件包。谢谢。

python random-forest scikit-learn scipy

user1910316

2013-01-26T16:32:34.823

0 投票

1 回答

1312 浏览

r - 提取与新观察相关联的每棵树的终端节点

我想提取随机森林 R 实现的终端节点。据我了解随机森林，您有一系列正交树。当您预测一个新的观测值（回归）时，它会进入所有这些树，然后对每棵树的预测进行平均。如果我不想平均，但可能对这些相应的观察结果进行线性回归，我需要一个与这个新观察结果“相关”的观察结果列表。我已经浏览了源代码，但还没有想出一种方法来获得它。谁能帮我？

r regression linear-regression random-forest

2013-02-03T20:15:10.447

0 投票

1 回答

3808 浏览

r - R中的randomForest：是否有可能计算案例置信区间？

R 包randomForest报告森林中每棵树的均方误差。但是，我需要对数据中每个案例的置信度进行衡量。由于randomForest通过平均单个树的预测来计算个案预测，我想它也应该可以计算个案标准误差，从而计算置信区间。这可以使用输出的 randomForest 对象来完成（如果是这样：如何？）还是我必须深入研究源代码？

r random-forest confidence-interval

2013-02-05T14:22:43.210

0 投票

1 回答

2161 浏览

r - 使用 cforest/randomforest 预测进行并行预测（使用 doSNOW）

我试图通过拆分测试数据集（n = 35000）并让 R 在较小的块上运行来加快对测试数据集（n = 35000）的预测。该模型是用生成的party::cforest。

foreach但是，在尝试使用with时，我无法让 R 计算即使是最小的部分%dopar%。

predict(fit,newdata=a[1:100,])我的预测函数对于和都需要大约 7 秒 foreach(i=1:10) %do% {predict(fit,newdata=a[1:10,])}。

但是当我尝试使用时%dopar%，R 似乎冻结了。不应该：

更快？或者并行化本身是否会以某种方式减慢 R 速度？

使用另一个函数进行测试运行（按照此处的建议重复计算 sqrt(3) ）已显示出显着的改进，因此%dopar%也可以正常工作。

使用 randomForest 进行预测的行为类似，不同之处在于，即使%do%对于 10x1:10 的预测，也比仅预测 1:100 需要更多的时间。对于 randomForest，我并不关心，因为无论如何预测所有 35k 数据集都不是问题。顺便提一句。只有我，还是 cforest 需要更多时间和内存来完成所有事情？只有在 randomForest 像魅力一样工作时遇到麻烦..

（在 Windows 7、x64、8GB RAM、4 核/8 线程上运行 - 在 doSNOW 并行化集群中使用 6 个节点）

r foreach parallel-processing random-forest party

2013-02-07T16:59:12.687

0 投票

0 回答

233 浏览

r - predict.randomForest argument nodes=TRUE

When I do predict on newdata for randomForest (R implementation) and set nodes=TRUE

what is returned?

It says it returns an n by ntree matrix, each column containing the node number that the cases fall in for that tree.

I dont understand how this works? What is the node number that the cases fall in for that tree? Are a tree's nodes numbered when they are generated in this implementaiton of rf?

Thank you.

r regression prediction random-forest

2013-02-08T17:00:49.670

0 投票

1 回答

421 浏览

r - R中的并行处理

我正在使用一个自定义随机森林函数，该函数需要一组基因组数据（大约 56k 列）中的起点和终点。

我想将列号拆分为子组，并允许单独处理每个子组以加快速度。我用以下代码尝试了这个（不成功）：

其中 startMrk 是一个数值变量数组：1 4 8 12 16而 endMrk 是另一个数组：3 7 11 15 19

对于这个例子，我希望一个核心以 1:3 运行样本，另一个以 4:7 运行，等等。我对 R 中的并行处理概念不熟悉，所以我非常愿意研究任何文档可用的。有人对我在并行处理或上述代码中缺少的东西有建议吗？

r foreach parallel-processing random-forest

2013-02-12T04:56:30.200

0 投票

1 回答

4591 浏览

r - 使用插入符号时用于 rf (randomForest) 的 createGrid 出错

当我尝试创建一个参数网格以使用插入符号进行训练时，我得到了各种错误：

createGrid 的文档说：

并给出以下正确工作的示例：

有了这个，我做错了什么？

跟进问题：

len as a argument tocreateGrid和tuneLengthin the argument for之间有什么联系train？可以len和tuneLength它们一起使用吗？他们是什么关系？

其他有用的线程：

如果有帮助，这里有一个线程描述了如何使用createGridin train: caretcaret ::train: 指定模型生成参数

r random-forest

2013-02-12T18:56:10.917

0 投票

1 回答

2612 浏览

r - OOB错误率与混淆矩阵的一致性

在检查我的模型的统计数据时，看起来中的数字与 in 中的数字confusion matrix不一致。 OOB error raterandomForest

如何从混淆矩阵中推导出 OOB 错误率？他们之间是什么关系？

在下面的示例中，我打印了两个模型的输出，一个适合分层抽样（使用中的样本子集sampsize），另一个不适合（即使用默认抽样方案，我认为它使用所有样本） .

在此处输入图像描述

我没有公开数据，但这里是函数调用：

r random-forest

2013-02-13T21:51:46.450

0 投票

1 回答

2220 浏览

r - Up-sampling in R - randomForest

I have a highly imbalanced data and want to up-sample the minority class to improve accuracy (the minority class is the object of interest).

I tried using the "sampsize" option in the "randomForest" function - but it only allows for down-sampling. I read someplace, the "classwt" option can be used - but i am not sure how to use it.

Can anyone suggest a way to run Random Forest in R by up-sampling the minority class (using the "randomForest" library or other such libraries).

Thanks.

r machine-learning random-forest

2013-02-15T04:57:27.733

问题标签 [random-forest]

跟进问题：

其他有用的线程：

Reference