问题标签 [random-forest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 为聚类生成数据
我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪音的数据集。
我有 2 个属性,A1 和 A2(均为二进制)。类计算为:A1 xor A2。我添加了一些嘈杂的二进制属性。
例如,我们有:
在聚类中,我们没有类,因此对于随机森林聚类,我们获取原始数据并对其进行转换。我们将所有现有案例标记为第 1 类,并添加标记为第 2 类的合成数据。合成数据是通过从某个属性的所有值中随机抽样构建的。
这是我们得到的:
上半部分是标有类别 1 的原始数据(如上)。线下是标有类别 2 的随机采样合成数据。随机森林试图找到一些区分类别 1 和类别 2 的结构(真实数据与随机数据)。问题是,没有类的 XOR 什么都没有告诉我们,这里也没有什么可学的。
最后,我的问题:如何生成具有非依赖、轻度依赖或强依赖属性的随机森林聚类数据?
r - 并行化 rfcv() 函数以在 randomForest 包中进行特征选择
我想知道是否有人知道如何并行化R-package 'randomForest'中实现的rfcv()函数。对不起,如果这个问题听起来很基本,但我尝试使用“foreach”来做到这一点,但没有任何结果。
r - 构建 RF 时下标越界
我正在尝试基于 r 中的随机森林构建分类器。
重现此的代码:
这有效:
这有效(但当然没有意义):
但是建立一个随机森林会给出:
谷歌搜索说这是一个尺寸问题,但无法弄清楚为什么/如何。
r 版本:
R.version _
platform i686-pc-linux-gnu
arch i686
os linux-gnu
system i686, linux-gnu
status
major 2
minor 15.1
year 2012
month 06
day 22
svn rev 59600
language R
version.string R version 2.15.1 (2012 -06-22) 昵称烤棉花糖
库版本:
r - 增加样本数据的大小 - R
我的一位同事表示,randomForest()
在非常大的数据集上表现不佳。现在,我只是想弄清楚是否真的如此,但由于数据集无法共享(敏感信息),我想我不妨尝试提出一个大型数据集。我尝试了以下操作,但无法理解错误消息:
错误信息:
有人可以在这里指导我吗?
r - R randomForest子集无法摆脱因子水平
可能重复:
在 R 中的子集数据框中删除因子级别
我正在尝试使用 randomForest 来预测销售额。我有 3 个变量,其中一个是 storeId 的因子变量。我知道测试集中有一些级别不在训练集中。我正在尝试仅对训练集中存在的级别进行预测,但无法让它超越新的因子级别。
这是我到目前为止所尝试的:
这部分是有道理的。
所以我试试这个:
所以我试试这个:
“11”级还在里面。
接下来我试试这个:
尽管这里看起来还不错:
有什么建议可以让它在没有“11”级别的商店上进行预测?
编辑:
c++ - C++:如何重用我的模板代码
我正在编写一些算法来构建随机森林,每个森林都将使用单独的函数在单独的数据上进行训练(每棵树将使用一组具有固定签名的函数,但是不同的树将使用不同的函数集进行训练,这些函数可能具有不同的签名),但是我想使用模板编写一次构建随机树的代码。我目前有以下内容:
模板类 T 对应训练数据类型(即图像补丁,或像素) 模板类 V 对应函数指针类型
我像这样创建对象:
问题是,出于效率原因,对于我正在构建的一棵树,我希望函数集(function_ptr's)不仅包含 TrainingDataPoint(模板类型 T),还包含数据缓存。这样我的函数指针将如下所示:
现在的问题是,我想不出一种方法来保持 RandomTree 类的通用性,但有一些函数集(模板类型 V)不仅仅需要训练点(模板类型 T)。
到目前为止,我想到了:
- 使缓存全局化,以便函数可以访问它
- 为每个训练数据点添加一个指向缓存的指针(但谁负责清理?)
- 将第三个模板参数添加到 RandomTree,但在这种情况下,如果我正在构建不需要第三个参数的树,我应该放什么?
这些选项似乎都没有对我特别有吸引力,希望有人可以提供一些经验并告诉我更好的方法吗?
谢谢
machine-learning - 用scikit学习随机森林的概率分布?
我有一个状态->动作对(s,a)的数据集,其中每个 s 定义了 a 的可能选择的概率分布,并且每个 a 都是从该概率分布中采样的。我想为这个数据集训练一个分类器,而不是学习预测最大似然,它预测分布 a 是从中采样的。
例如,如果您正在玩一个迭代的石头剪刀布,您的状态可能只是您之前做出的动作和 ∈ { Rock, Paper, Scissors },其中之前的状态降低了再次选择该动作的概率。我的数据集将如下所示:
是否可以在 scikit-learn 中使用随机森林学习标签上的概率分布?
opencv - OpenCV 迭代随机森林训练
我使用随机森林算法作为我论文项目的分类器。训练集由数千张图像组成,每张图像采样大约 2000 个像素。对于每个像素,我有数十万个特征。由于我目前的硬件限制(8G 内存,可能扩展到 16G),我只能将样本(即每个像素的特征)放入内存中,用于一张图像。我的问题是:是否可以多次调用 train 方法,每次使用不同的图像样本,并在每次调用时自动更新统计模型?我对变量重要性特别感兴趣,因为在我用整个特征集训练完整的训练集之后,我的想法是将特征的数量从几十万减少到大约 2000,只保留最重要的。
谢谢你的任何建议,丹尼尔
r - 使用 R 中 randomForest 包中的 rfimpute 出现内存错误
我想尝试在我目前正在处理的数据集中填写我的缺失值。数据有 13300 个观测值和 9 个特征。我想运行一个随机森林,所以我尝试使用 rfimpute 来填充这些缺失值。我收到以下错误:无法分配大小为 678.4 Mb 的向量。我在具有 8 gb 内存的 Windows 机器上运行它。这是我做的电话:
这里发生了什么?670 mbs 听起来并不多...
r - R中的随机森林 - 许多类
我想用 R randomForest 进行多标签分类。我有十个班A..J,
我找到了如何预测单个类的示例,例如:
但我想预测更多类,例如 H、I、J。(即说只有 A..G 被赋予属性)。我该怎么做?
我有一个保留 A..G 和仅一个预测类(H/I/J)并运行 randomForest 3 次的想法,但也许有更好的方法?一口气做完?
提前谢谢了。