0

这是我遇到的问题。我希望有人能解释为什么

我有一个大型数据集,用于预测原始数据中的分类值 L、M、H。它是一个因素。

训练集很大,所以我没有足够的内存来训练它——所以我从我的训练数据集中抽取了一个样本并创建了一个 randomForest。然后我创建了一个不同的随机样本并创建了第二个森林,....它们都有相似的性能,这是一个值得关注的问题

我在 randomForest 中找到了 combine 函数,并决定用它来组合我的模型。

然后我需要使用新模型对训练集进行评分以获得 OOB 估计值,然后对我的验证样本进行相同的估计。

我对测试集的预测有问题。

我基本上收到一条消息说“eval(expr,envirmenclos)中的错误:找不到对象'XXX'”,其中XXX是变量名。但这没有任何意义,因为变量从未更改过名称

我重做了几次,以防我的数据损坏。

知道为什么我会得到这个吗?

4

1 回答 1

0

没有数据很难知道,但这是我基于过去类似错误的预感 - 如果您正在对数据进行采样并运行单独的模型,您可能会遇到分类变量的问题,其中一个模型中的因子水平不匹配来自另一个模型的因子水平。可能解决此问题的方法是在运行模型之前指定数据框中的因子级别(使用级别函数)。

编辑-首次亮相的一种方法是在相同的样本数据上运行两个模型,将它们组合起来并尝试应用模型,看看是否会出现相同的错误。

于 2013-04-29T21:58:30.670 回答