问题标签 [random-forest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 为随机森林回归模型设置 ntree 和 mtry 的值
我正在使用 R 包randomForest
对一些生物数据进行回归。我的训练数据大小是38772 X 201
.
ntree
我只是想知道——对于树的数量和每个级别的变量数量来说,什么是一个好的值mtry
?是否有一个近似公式来找到这样的参数值?
我输入数据中的每一行都是代表氨基酸序列的 200 个字符,我想建立一个回归模型来使用这样的序列来预测蛋白质之间的距离。
r - 利用可用数据并忽略缺失数据构建分类器
我在 R 平台中使用 randomForest 包来构建二进制分类器。大约有 30,000 行,其中 14,000 行在正类中,16,000 行在负类中。我有 15 个已知对分类很重要的变量。
我有一些额外的变量(大约 5 个)缺少信息。这些变量的值为 1 或 0。1 表示存在某物,而 0 表示不知道它是否存在。众所周知,如果有 1,这些变量将是分类最重要的变量(增加分类的可靠性,并且样本更有可能属于正类),但如果有 0,则无用。而且,只有 5% 的行的值为 1。因此,一个变量仅对 5% 的情况有用。这 5 个变量是相互独立的,所以我希望这些变量对我拥有的 15-25% 的数据非常有用。
有没有办法利用可用数据但忽略单个列中存在的缺失/未知数据?您的想法和建议将不胜感激。实现不必特定于随机森林和 R 平台。如果使用其他机器学习技术或在其他平台上可以做到这一点,那么它们也是最受欢迎的。感谢您的时间。问候
random - 使用 C# 实现随机决策森林
您好我正在尝试使用 ALGLIB 来计算 rdf。不幸的是,我的每个训练样本都有两个以上的变量。我应该使用下面的函数,但我的训练数据有 7 个变量。我认为 ALGLIB 的实现仅针对 2 个变量。我怎样才能将它用于 7 个可变训练样本?
提前致谢。如果有另一个库适合我的训练集并且实现了我可以使用的随机决策森林,我不会坚持使用 ALGLIB。
r - R中连续randomForest.predict调用的结果不一致
创建随机森林后,我用它来预测样本外的测试数据集。但是,连续调用 predict 会产生不同的结果:
关于我如何使这个不确定的任何想法?
r - R randomForest 用于分类
我正在尝试使用 randomForest 进行分类,但我反复收到一条错误消息,似乎没有明显的解决方案(randomForest 在过去对我进行回归时效果很好)。我在下面粘贴了我的代码。“成功”是一个因素,所有因变量都是数字。关于如何正确运行此分类的任何建议?
另外,这是数据集的示例:
头部(数据)
matlab - MATLAB fitensemble:它如何构建每棵树?基于所有特征或特征子集?
我在 matlab 2011b 中使用带有“Bag”的 fitensemble 函数进行分类,方法如下:
fitensemble(特征, classLabels,'Bag',10,'tree','type', 'classification');
有人可以告知构建每个决策树的 fitensemble 选择特征吗?它是否为每棵树选择所有特征的子集(就像原始的 Breiman 的随机森林一样)?或者它选择所有特征来构建每棵树?
例如,如果数据集中有 500 个特征,每棵树是基于 500 个特征构建的,还是随机选择 500 个特征的子集来构建每棵树?
python - 无法理解 scikit 随机森林的输出
假设我有一个这样的数据集:
其中第 11 列表示特征(酸度、氯化物等),最后一列表示给予项目的评级(例如 5 或 6)
数据集是这样训练的:
打印类似的东西
现在,为什么它不输出单个分类,例如 5 或 6 评级?
文档说“输入样本的预测类别概率被计算为森林中树木的平均预测类别概率”,我无法理解。
如果你使用
它打印的东西更像你所期望的——至少它看起来像评级——但我仍然不明白为什么每个特征都有一个预测,而不是考虑到所有特征的单一预测?
python - Python Scikit 随机森林回归器错误
我正在尝试从 csv 加载训练和测试数据,在 scikit/sklearn 中运行随机森林回归器,然后预测测试文件的输出。
TrainLoanData.csv 文件包含 5 列;第一列是输出,接下来的 4 列是特征。TestLoanData.csv 包含 4 列 - 特征。
当我运行代码时,我收到错误:
这是什么意思?
这是我的代码:
machine-learning - report random forest results
This is a question with respective to the output of Random Forest in R.
I understand what the gini
, impurity
, and mean accuracy plots
represent. I have a large number of different response variables and have been computing MANY different random forests (separately on each course).
The resulting top predictors are usually fairly similar between the two output plots (mean accuracy and node purity). What confuses me is I have one output with a single variable with high node purity (followed by a huge break), but this same variable on the mean accuracy plot is VERY low. Almost at the bottom.
If I'm interpreting what I've read and what other answers have already been given on this forum correctly,
- how can the same variable have high importance (node purity) but very low accuracy? This doesn't seem to make sense to me and makes me suspect of my results.
Any insight would be greatly appreciated!
visual-c++ - 在 OpenCV 中使用随机森林进行图像分类
canyone 可以指导我如何在 OpenCV 中的相机输入视频上训练随机森林分类器吗?我想做的是:
从 VideoCapture 对象中获取帧
在框架中定位对象
在对象周围绘制一个边界框并对其进行采样
将样本存储在缓冲区中并在线训练随机森林分类器
更新对象模型
使用更新的对象模型跟踪下一帧中的对象
返回第 2 步
这种方法的灵感来自 TLD 捕食者算法,我也在 openTLD 中获得了一些成果,但是,我不太了解 openTLD 的实现,并想自己创建它。
我已经使用基于 haar 的级联分类器完成了第 3 步,但我对随机森林上的图像分类和更新模型有点迷茫。
非常感谢您对此的任何帮助和指导!真诚的感谢!