问题标签 [random-forest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
945 浏览

r - 为聚类生成数据

我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪音的数据集。

我有 2 个属性,A1 和 A2(均为二进制)。类计算为:A1 xor A2。我添加了一些嘈杂的二进制属性。

例如,我们有:

在聚类中,我们没有类,因此对于随机森林聚类,我们获取原始数据并对其进行转换。我们将所有现有案例标记为第 1 类,并添加标记为第 2 类的合成数据。合成数据是通过从某个属性的所有值中随机抽样构建的。

这是我们得到的:

上半部分是标有类别 1 的原始数据(如上)。线下是标有类别 2 的随机采样合成数据。随机森林试图找到一些区分类别 1 和类别 2 的结构(真实数据与随机数据)。问题是,没有类的 XOR 什么都没有告诉我们,这里也没有什么可学的。

最后,我的问题:如何生成具有非依赖、轻度依赖或强依赖属性的随机森林聚类数据?

0 投票
1 回答
1201 浏览

r - 并行化 rfcv() 函数以在 randomForest 包中进行特征选择

我想知道是否有人知道如何并行化R-package 'randomForest'中实现的rfcv()函数。对不起,如果这个问题听起来很基本,但我尝试使用“foreach”来做到这一点,但没有任何结果。

0 投票
2 回答
4328 浏览

r - 构建 RF 时下标越界

我正在尝试基于 r 中的随机森林构建分类器。

重现此的代码:

这有效:

这有效(但当然没有意义):

但是建立一个随机森林会给出:

谷歌搜索说这是一个尺寸问题,但无法弄清楚为什么/如何。

r 版本:

R.version _
platform i686-pc-linux-gnu
arch i686
os linux-gnu
system i686, linux-gnu
status
major 2
minor 15.1
year 2012
month 06
day 22
svn rev 59600
language R
version.string R version 2.15.1 (2012 -06-22) 昵称烤棉花糖

库版本:

0 投票
2 回答
1756 浏览

r - 增加样本数据的大小 - R

我的一位同事表示,randomForest()在非常大的数据集上表现不佳。现在,我只是想弄清楚是否真的如此,但由于数据集无法共享(敏感信息),我想我不妨尝试提出一个大型数据集。我尝试了以下操作,但无法理解错误消息:

错误信息:

有人可以在这里指导我吗?

0 投票
2 回答
6324 浏览

r - R randomForest子集无法摆脱因子水平

可能重复:
在 R 中的子集数据框中删除因子级别

我正在尝试使用 randomForest 来预测销售额。我有 3 个变量,其中一个是 storeId 的因子变量。我知道测试集中有一些级别不在训练集中。我正在尝试仅对训练集中存在的级别进行预测,但无法让它超越新的因子级别。

这是我到目前为止所尝试的:

这部分是有道理的。

所以我试试这个:

所以我试试这个:

“11”级还在里面。

接下来我试试这个:

尽管这里看起来还不错:

有什么建议可以让它在没有“11”级别的商店上进行预测?

编辑:

0 投票
2 回答
840 浏览

c++ - C++:如何重用我的模板代码

我正在编写一些算法来构建随机森林,每个森林都将使用单独的函数在单独的数据上进行训练(每棵树将使用一组具有固定签名的函数,但是不同的树将使用不同的函数集进行训练,这些函数可能具有不同的签名),但是我想使用模板编写一次构建随机树的代码。我目前有以下内容:

模板类 T 对应训练数据类型(即图像补丁,或像素) 模板类 V 对应函数指针类型

我像这样创建对象:

问题是,出于效率原因,对于我正在构建的一棵树,我希望函数集(function_ptr's)不仅包含 TrainingDataPoint(模板类型 T),还包含数据缓存。这样我的函数指针将如下所示:

现在的问题是,我想不出一种方法来保持 RandomTree 类的通用性,但有一些函数集(模板类型 V)不仅仅需要训练点(模板类型 T)。

到目前为止,我想到了:

  1. 使缓存全局化,以便函数可以访问它
  2. 为每个训练数据点添加一个指向缓存的指针(但谁负责清理?)
  3. 将第三个模板参数添加到 RandomTree,但在这种情况下,如果我正在构建不需要第三个参数的树,我应该放什么?

这些选项似乎都没有对我特别有吸引力,希望有人可以提供一些经验并告诉我更好的方法吗?

谢谢

0 投票
1 回答
751 浏览

machine-learning - 用scikit学习随机森林的概率分布?

我有一个状态->动作对(s,a)的数据集,其中每个 s 定义了 a 的可能选择的概率分布,并且每个 a 都是从该概率分布中采样的。我想为这个数据集训练一个分类器,而不是学习预测最大似然,它预测分布 a 是从中采样的。

例如,如果您正在玩一个迭代的石头剪刀布,您的状态可能只是您之前做出的动作和 ∈ { Rock, Paper, Scissors },其中之前的状态降低了再次选择该动作的概率。我的数据集将如下所示:

是否可以在 scikit-learn 中使用随机森林学习标签上的概率分布?

0 投票
2 回答
1737 浏览

opencv - OpenCV 迭代随机森林训练

我使用随机森林算法作为我论文项目的分类器。训练集由数千张图像组成,每张图像采样大约 2000 个像素。对于每个像素,我有数十万个特征。由于我目前的硬件限制(8G 内存,可能扩展到 16G),我只能将样本(即每个像素的特征)放入内存中,用于一张图像。我的问题是:是否可以多次调用 train 方法,每次使用不同的图像样本,并在每次调用时自动更新统计模型?我对变量重要性特别感兴趣,因为在我用整个特征集训练完整的训练集之后,我的想法是将特征的数量从几十万减少到大约 2000,只保留最重要的。

谢谢你的任何建议,丹尼尔

0 投票
2 回答
1310 浏览

r - 使用 R 中 randomForest 包中的 rfimpute 出现内存错误

我想尝试在我目前正在处理的数据集中填写我的缺失值。数据有 13300 个观测值和 9 个特征。我想运行一个随机森林,所以我尝试使用 rfimpute 来填充这些缺失值。我收到以下错误:无法分配大小为 678.4 Mb 的向量。我在具有 8 gb 内存的 Windows 机器上运行它。这是我做的电话:

这里发生了什么?670 mbs 听起来并不多...

0 投票
1 回答
1738 浏览

r - R中的随机森林 - 许多类

我想用 R randomForest 进行多标签分类。我有十个班A..J,

我找到了如何预测单个类的示例,例如:

但我想预测更多类,例如 H、I、J。(即说只有 A..G 被赋予属性)。我该怎么做?

我有一个保留 A..G 和仅一个预测类(H/I/J)并运行 randomForest 3 次的想法,但也许有更好的方法?一口气做完?

提前谢谢了。