问题标签 [random-forest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R randomForest 投票平局
有谁知道 R randomForest 包用于解决分类关系的机制是什么 - 即当树最终在两个或更多类中获得相等的投票时?
文档说领带是随机断开的。但是,当您在一组数据上训练一个模型,然后使用一组验证数据多次对该模型进行评分时,绑定的类决策不是 50/50。
其中model
是 randomForest 对象,并且bad_ind
只是具有固定类投票的特征向量的索引列表。在我的测试用例中,使用上面的代码,两个绑定类之间的分布更接近 90/10。
此外,使用奇数树的建议通常不适用于第三类拉一些选票而使其他两个类处于平局。
这些与投票相关的 rf 树的案例不应该以 50/50 结束吗?
更新: 由于训练森林的随机性,很难提供一个例子,但下面的代码(对不起,草率)最终会产生森林无法确定明显赢家的例子。当关系被打破时,我的测试运行显示 66%/33% 的分布 - 我预计这是 50%/50%。
更新: 这应该在 randomForest 的 4.6-3 版本中修复。
r - 可以处理 NA 的 R 包/模型
我正在寻找可以处理 NA 的 R 包或机器学习模型/算法(如randomForest
、glmnet
、gbdt
等),而不是忽略具有任何 NA 实例的行或列。我不想推卸责任。有什么建议么?
r - R RandomForest:新对象的接近度
我训练了一个随机森林:
当我想预测新对象的 y 时,我使用
如何根据已经存在的森林(模型)计算新对象(xnew)和训练集(x)之间的接近度?predict 函数中的邻近选项仅给出新对象 (xnew) 之间的邻近度。我可以在组合数据集(x 和 xnew)上再次无监督地运行 randomForest 以获得近似值,但我认为必须有某种方法可以避免再次构建森林,而是使用已经存在的森林。
谢谢!基连
r - R机器学习包处理具有大量级别的因素
我正在尝试做一些涉及大量因子类型变量(单词、描述、时间,基本上是非数字的东西)的机器学习。我通常依赖randomForest
但它不适用于具有> 32个级别的因素。
任何人都可以提出一些好的选择吗?
r - R 有没有办法找到 Inf/-Inf 值?
我正在尝试在大型数据集(5000x300)上运行 randomForest。不幸的是,我收到如下错误消息:
因此,我尝试使用以下方法查找任何 NA:
这让我相信问题出在 Inf 上,因为似乎没有任何 NA。
关于如何根除 Inf 的任何建议?
r - 具有非常不平衡的类的随机森林
我在一个大数据问题中使用随机森林,它有一个非常不平衡的响应类,所以我阅读了文档,发现了以下参数:
这些参数的文档很少(或者我没有运气找到它)而且我真的不明白如何实现它。我正在使用以下代码:
响应是具有两个可能值的类,第一个比第二个出现的频率更高(10000:1 或更多)
这list.params
是一个具有不同参数的列表(呃!我知道......)
好吧,问题(再次)是:我如何使用'strata'参数?我正确使用 sampsize 吗?
最后,有时我会收到以下错误:
对不起,如果我做了这么多(也许是愚蠢的)问题......
r - R采样绕过randomForest 32因子限制
我正在尝试解决因素的 32 个级别的 randomForest 包限制。
我在一个因子变量中有一个包含 100 个级别的数据集。
我编写了以下代码,以查看使用带替换的采样会是什么样子,以及需要多少次尝试才能选择特定百分比的级别。
我正在争论的是是否需要更换样品。
我在想:
- 获取 100 个因子中的 32 个样本,
- 使用这些行来运行 randomForest,
- 用 randomForest 预测测试集和
- 重复此过程 (a) 3(不更换)或 (b) 10-15 次(更换)。
- 取 3 或 10-15 个预测值,找到平均值并将其用作最终预测值。
我很好奇是否有人尝试过这样的事情,或者我是否违反了任何规则(引入偏见等),或者是否有人有任何建议。
注意:我也在 Stats-Overflow / Cross-Validated 上交叉发布了这个问题。
r - 带有 doSMP 和 foreach 的并行随机森林大大增加了内存使用量(在 Windows 上)
在串行执行随机森林时,它在我的系统上使用 8GB 的 RAM,在并行执行时,它使用超过两倍的 RAM (18GB)。并行执行时如何将其保持在 8GB?这是代码:
r - 我是否需要为 randomForest(R 包)标准化(或缩放)数据?
我正在做回归任务 - 我是否需要为 randomForest(R 包)标准化(或缩放)数据?是否有必要扩展目标值?如果 - 我想使用 caret 包中的 scale 函数,但我没有找到如何取回数据(descale,denormalize)。你不知道其他一些有助于规范化/非规范化的功能(在任何包中)吗?谢谢,米兰
machine-learning - 如何估计二元分类器所需的内存量?
假设我想创建一个二进制分类器来检测垃圾邮件。我有十亿个训练示例和大约 20 个特征。我希望我训练有素的分类器适合内存(我将在实际上是 rpc 调用的云和磁盘操作上运行它会非常昂贵)。
我的问题是:如何估计我需要的内存量?假设我的分类器是随机森林,我对训练集中垃圾邮件消息的分布一无所知。
只有数字:两个类,十亿个例子,20 个特征。
这样的估计是否可能?怎么做到呢?