问题标签 [random-forest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 用于 R 中回归的 RandomForest
我正在试验 R 和 randomForest 包,我对 SVM 和神经网络有一些经验。我的第一个测试是尝试回归:sin(x)+gaussian noise。使用神经网络和 svm,我获得了 sin(x) 的“相对”好的近似值,因此噪声被滤除并且学习算法不会过拟合。(对于体面的参数)在 randomForest 上做同样的事情时,我有一个完全过拟合的解决方案。我只是使用(R 2.14.0,也在 2.14.1 上尝试过,以防万一):
我想 randomForest 中有一个神奇的选项可以让它正常工作,我尝试了一些,但我没有找到合适的拉杆......
python - scikit learn .9 或以下的随机森林
我在我的 mac 和我的 linux 机器上安装 Scikit learn 时遇到了一些奇怪的问题。只有 scikit learn .9 安装。
有没有办法使用这个版本来学习随机森林?
python - 提高 Python 复制大型数据集的效率
我在 Python 中使用的随机森林的实现有点麻烦。请记住,我很清楚 Python 并非用于高效的数字运算。选择更多是基于希望对 Python 有更深入的了解和额外的经验。我想找到一个解决方案,使其“合理”。
话虽如此,我很好奇这里是否有人可以对我的实现提出一些性能改进建议。通过分析器运行它,很明显大部分时间都花在了执行 list “append” 命令和我的数据集拆分操作上。本质上,我有一个大型数据集实现为矩阵(而不是列表列表)。我正在使用该数据集构建决策树,因此我将拆分具有最高信息增益的列。拆分包括创建两个新数据集,其中仅包含与某些标准匹配的行。新数据集是通过初始化两个空列表并向它们附加适当的行来生成的。
我事先不知道列表的大小,所以我不能预先分配它们,除非可以预先分配丰富的列表空间,然后在最后更新列表大小(我在任何地方都没有看到这个引用) .
有没有更好的方法在 python 中处理这个任务?
r - NA in randomForest
I have a question regarding NA in randomForest (in R). I have a dataset which include both numerical and non-numerical variables, and the data includes some NA. Do anyone have some tips how to deal with this? I tried to use na.roughfix but then i get an error message "na.roughfix only works for numeric or factor". I also tried rfImpute but this does not work either because I have some NA in my response variable. Does anyone have som tips?
java - 如何从 R 中提取 RandomForest 以用于生产?
我有一个成功的随机森林模型,我想将它集成到另一个软件中,我知道我可以使用一些库(如 Java 中的 fastRF 或其他语言的 ALGLIB 的 DecisionForest),但是我如何使用在 R 中训练的“模型”?我必须用新语言重新训练它吗?
另一种观点是以某种方式提取它,但我不知道该怎么做......
任何帮助将不胜感激
提前致谢
opencv - 基尼杂质,在opencv中生长随机树
目标:在 openCV 中为生长树的分裂决策添加偏移杂质。
目前在 opencv 随机树中,拆分如下:
它使用基尼杂质。
任何可以解释代码如何实现这一点的人,据我所知:最初它将所有类计数放在正确的节点中,并且在将一个实例从右向左移动并更新 lsum2 和 rsum2 时,它会找到最佳解决方案。我不明白 p_j^2 与 lv*2 +1 或 rv*2-1 的关系。
真正的问题是,如果有可用的偏移量,并且想根据偏移量的相似性的杂质添加一个拆分。(偏移量是从中心到当前节点的方向和距离。
我想出的是这样的东西,如果有人能指出任何缺陷,那就太好了,因为 atm 它没有给出好的结果,我不知道从哪里开始调试。
r - 在 randomForest 包中加入观察权重
如何使用randomForest
带有观察权重的 R 包?我知道这个包中没有这样的选项。我有两个问题:
有没有使用
randomForest
包解决这个问题的方法?目前,我正在从以权重为概率的数据中抽取样本,这样我至少可以模拟它:它有效还有其他(更好的)解决方案吗?
是否有任何替代
randomForest
方案。我找到了party
包(cforest),但它在内存管理方面很糟糕(或者我不能像使用randomForest
包的方式那样使用它)。我有大约 20 万个观察值和 30-40 个变量。
编辑:
很抱歉没有澄清细节。我正在使用这个randomForest
包来解决回归问题(不是分类)。这是一个时间序列,每个观察都有其重要性。稍后,此权重用于确定跨测试观察的模型性能。y 变量是连续的。
opencv - 如何使用 OpenCV 在随机森林中停止随机抽样?
我使用功能CvRTrees::train
。该函数自动对数据进行采样。问题是我在传递数据之前已经对数据进行了采样。我不希望它再次重新采样。是否需要传递任何标志来停止此采样,或者我必须从代码中删除这一行?
谢谢你
r - 大数据集上的随机森林
我在 R 中有一个大型数据集(1M+ 行 x 6 列),我想用它来训练随机森林(使用randomForest
包)用于回归目的。不幸的是,我Error in matrix(0, n, n) : too many elements specified
在尝试一次完成整个事情时遇到错误,并且在数据子集上运行时无法分配足够的内存类型的错误 - 低至 10,000 左右的观察。
看到我不可能在我的机器上添加更多 RAM 并且随机森林非常适合我尝试建模的进程类型,我真的很想完成这项工作。
非常感谢任何建议或解决方法的想法。
r - R中RandomForest包中的RandomForest函数中的参数'classwt'代表什么?
帮助页面randomforest::randomforest()
说:
“classwt - 类的先验。不需要加起来。忽略回归。”
当您有大量不平衡数据时,可以设置classwt
参数帮助,即。类的先验差异很大?
classwt
在具有 3 个类且先验向量等于 (p1,p2,p3) 且在测试集中先验为 (q1,q2,q3) 的数据集上训练模型时,我应该如何设置?