“random-forest”的相关标签问题

0 投票

0 回答

945 浏览

r - 为聚类生成数据

我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪音的数据集。

我有 2 个属性，A1 和 A2（均为二进制）。类计算为：A1 xor A2。我添加了一些嘈杂的二进制属性。

例如，我们有：

在聚类中，我们没有类，因此对于随机森林聚类，我们获取原始数据并对其进行转换。我们将所有现有案例标记为第 1 类，并添加标记为第 2 类的合成数据。合成数据是通过从某个属性的所有值中随机抽样构建的。

这是我们得到的：

上半部分是标有类别 1 的原始数据（如上）。线下是标有类别 2 的随机采样合成数据。随机森林试图找到一些区分类别 1 和类别 2 的结构（真实数据与随机数据）。问题是，没有类的 XOR 什么都没有告诉我们，这里也没有什么可学的。

最后，我的问题：如何生成具有非依赖、轻度依赖或强依赖属性的随机森林聚类数据？

r cluster-analysis random-forest data-generation

2012-09-30T20:05:10.660

0 投票

1 回答

1201 浏览

r - 并行化 rfcv() 函数以在 randomForest 包中进行特征选择

我想知道是否有人知道如何并行化R-package 'randomForest'中实现的rfcv()函数。对不起，如果这个问题听起来很基本，但我尝试使用“foreach”来做到这一点，但没有任何结果。

r parallel-processing random-forest feature-selection

2012-10-09T13:25:50.640

0 投票

2 回答

4328 浏览

r - 构建 RF 时下标越界

我正在尝试基于 r 中的随机森林构建分类器。

重现此的代码：

这有效：

这有效（但当然没有意义）：

但是建立一个随机森林会给出：

谷歌搜索说这是一个尺寸问题，但无法弄清楚为什么/如何。

r 版本：

R.version _
platform i686-pc-linux-gnu
arch i686
os linux-gnu
system i686, linux-gnu
status
major 2
minor 15.1
year 2012
month 06
day 22
svn rev 59600
language R
version.string R version 2.15.1 (2012 -06-22) 昵称烤棉花糖

库版本：

r random-forest

2012-10-15T16:52:52.437

0 投票

2 回答

1756 浏览

r - 增加样本数据的大小 - R

我的一位同事表示，randomForest()在非常大的数据集上表现不佳。现在，我只是想弄清楚是否真的如此，但由于数据集无法共享（敏感信息），我想我不妨尝试提出一个大型数据集。我尝试了以下操作，但无法理解错误消息：

错误信息：

有人可以在这里指导我吗？

r random-forest

2012-10-22T17:41:06.020

0 投票

2 回答

6324 浏览

r - R randomForest子集无法摆脱因子水平

可能重复：
在 R 中的子集数据框中删除因子级别

我正在尝试使用 randomForest 来预测销售额。我有 3 个变量，其中一个是 storeId 的因子变量。我知道测试集中有一些级别不在训练集中。我正在尝试仅对训练集中存在的级别进行预测，但无法让它超越新的因子级别。

这是我到目前为止所尝试的：

这部分是有道理的。

所以我试试这个：

“11”级还在里面。

接下来我试试这个：

尽管这里看起来还不错：

有什么建议可以让它在没有“11”级别的商店上进行预测？

编辑：

r random-forest

2012-10-24T18:03:23.300

0 投票

2 回答

840 浏览

c++ - C++：如何重用我的模板代码

我正在编写一些算法来构建随机森林，每个森林都将使用单独的函数在单独的数据上进行训练（每棵树将使用一组具有固定签名的函数，但是不同的树将使用不同的函数集进行训练，这些函数可能具有不同的签名），但是我想使用模板编写一次构建随机树的代码。我目前有以下内容：

模板类 T 对应训练数据类型（即图像补丁，或像素）模板类 V 对应函数指针类型

我像这样创建对象：

问题是，出于效率原因，对于我正在构建的一棵树，我希望函数集（function_ptr's）不仅包含 TrainingDataPoint（模板类型 T），还包含数据缓存。这样我的函数指针将如下所示：

现在的问题是，我想不出一种方法来保持 RandomTree 类的通用性，但有一些函数集（模板类型 V）不仅仅需要训练点（模板类型 T）。

到目前为止，我想到了：

使缓存全局化，以便函数可以访问它
为每个训练数据点添加一个指向缓存的指针（但谁负责清理？）
将第三个模板参数添加到 RandomTree，但在这种情况下，如果我正在构建不需要第三个参数的树，我应该放什么？

这些选项似乎都没有对我特别有吸引力，希望有人可以提供一些经验并告诉我更好的方法吗？

谢谢

c++templates machine-learning function-pointers random-forest

2012-10-25T14:57:56.523

0 投票

1 回答

751 浏览

machine-learning - 用scikit学习随机森林的概率分布？

我有一个状态->动作对（s，a）的数据集，其中每个 s 定义了 a 的可能选择的概率分布，并且每个 a 都是从该概率分布中采样的。我想为这个数据集训练一个分类器，而不是学习预测最大似然，它预测分布 a 是从中采样的。

例如，如果您正在玩一个迭代的石头剪刀布，您的状态可能只是您之前做出的动作和 ∈ { Rock, Paper, Scissors }，其中之前的状态降低了再次选择该动作的概率。我的数据集将如下所示：

是否可以在 scikit-learn 中使用随机森林学习标签上的概率分布？

machine-learning probability scikit-learn random-forest

2012-11-04T16:56:27.933

0 投票

2 回答

1737 浏览

我使用随机森林算法作为我论文项目的分类器。训练集由数千张图像组成，每张图像采样大约 2000 个像素。对于每个像素，我有数十万个特征。由于我目前的硬件限制（8G 内存，可能扩展到 16G），我只能将样本（即每个像素的特征）放入内存中，用于一张图像。我的问题是：是否可以多次调用 train 方法，每次使用不同的图像样本，并在每次调用时自动更新统计模型？我对变量重要性特别感兴趣，因为在我用整个特征集训练完整的训练集之后，我的想法是将特征的数量从几十万减少到大约 2000，只保留最重要的。

谢谢你的任何建议，丹尼尔

opencv machine-learning random-forest training-data

2012-11-05T14:27:44.613

0 投票

2 回答

1310 浏览

r - 使用 R 中 randomForest 包中的 rfimpute 出现内存错误

我想尝试在我目前正在处理的数据集中填写我的缺失值。数据有 13300 个观测值和 9 个特征。我想运行一个随机森林，所以我尝试使用 rfimpute 来填充这些缺失值。我收到以下错误：无法分配大小为 678.4 Mb 的向量。我在具有 8 gb 内存的 Windows 机器上运行它。这是我做的电话：

这里发生了什么？670 mbs 听起来并不多...

r out-of-memory random-forest

2012-11-05T16:14:52.780

0 投票

1 回答

1738 浏览

r - R中的随机森林 - 许多类

我想用 R randomForest 进行多标签分类。我有十个班A..J，

我找到了如何预测单个类的示例，例如：

但我想预测更多类，例如 H、I、J。（即说只有 A..G 被赋予属性）。我该怎么做？

我有一个保留 A..G 和仅一个预测类（H/I/J）并运行 randomForest 3 次的想法，但也许有更好的方法？一口气做完？

提前谢谢了。

r classification random-forest

2012-11-07T01:28:22.087

问题标签 [random-forest]

r - 为聚类生成数据

r - 并行化 rfcv() 函数以在 randomForest 包中进行特征选择

r - 构建 RF 时下标越界

r - 增加样本数据的大小 - R

r - R randomForest子集无法摆脱因子水平

c++ - C++：如何重用我的模板代码

machine-learning - 用scikit学习随机森林的概率分布？

opencv - OpenCV 迭代随机森林训练

r - 使用 R 中 randomForest 包中的 rfimpute 出现内存错误

r - R中的随机森林 - 许多类

问题标签 [random-forest]

Reference