2

我试图通过电子邮件发送这个包的作者但没有成功,只是想知道是否有其他人经历过这种情况。

我正在使用rpart具有 13 个属性的 4000 行数据。我可以毫无问题地对 300 行相同的数据运行相同的测试。当我在 4000 行上运行时,Rgui.exe 始终以 50% 的 CPU 运行,并且 UI 挂起;如果我让它运行,它将保持这种状态至少 4-5 小时,并且永远不会退出或响应。

这是我在 300 和 4000 大小子集上使用的代码:

train <- read.csv("input.csv", header=T)
y <- train[, 18]
x <- train[, 3:17]
library(rpart)
fit <- rpart(y ~ ., x)

这是一个已知的限制rpart,我做错了吗?潜在的解决方法?

4

2 回答 2

2

当您提供相似尺寸的 rpart 随机数据而不是您的真实数据(来自 input.csv)时,您能否重现错误消息?如果不是,则可能是您的数据有问题(可能是格式化?)。使用 read.csv 导入数据后,通过查看 str(train) 的输出来检查数据的格式问题。

#How to do an equivalent rpart fit one some random data of equivalent dimension
dats<-data.frame(matrix(rnorm(4000*14), nrow=4000))

y<-dats[,1]
x<-dats[,-1]
library(rpart)
system.time(fit<-rpart(y~.,x))
于 2010-04-22T12:32:15.723 回答
1

这里的问题是数据准备错误。

在数据集的中间很远的地方重新写入了一个标题。

于 2012-06-29T20:13:54.763 回答