0

我对我的简单但有点大的数据集有聚类需求。它有 3 列和大约 120k 行,而且所有数据都是数字。我尝试使用 rpart 但得到了这个可爱的错误。

Error in rep(1, numclass^2) : invalid 'times' argument
In addition: Warning message:
In matrix(rep(1, numclass^2) - diag(numclass), numclass) :
  NAs introduced by coercion

该功能也没有古怪的东西。

fit<-rpart(respVar ~ Var1 + Var2, data=varData, method="class")

我对 1k 行没有问题。它在 10k 行中有点慢,但仍然有效。数据集中没有 NA 值。目前在 Macbook Air 上尝试,但也会在 Mac Mini 上尝试。

我怀疑这是内存问题,但警告信息与我有关。是否有一些解决方法可以使集群工作?

4

2 回答 2

1

是的,我想是这样,

当我们尝试使用具有大量数字的 rep 函数时,同样的错误,例如:

> x <- rep(0,120000*12000000)
Error in rep(0, 120000 * 1.2e+07) : invalid 'times' argument
In addition: Warning message:
NAs introduced by coercion 

但我只是猜测,我不知道确切

于 2014-05-27T11:22:15.380 回答
0

我遇到了同样的问题,但搜索了一圈后,我没有找到任何解决方案。

我解决它的一种方法是将 method="class" 更改为 method="anova" (从分类更改为回归),它对我有用。

您的响应变量中有多少个级别?我认为如果您的数据集有很多级别,也许您可​​以尝试 method="anova"

于 2015-08-14T00:40:21.317 回答