-1

我有一个带有响应变量 ViolentCrimesPerPop 的训练集,我特意用控制拟合了一个大型回归树

control1 <- rpart.control(minsplit=2, cp=1e-8, xval=20)

train_control <- rpart(ViolentCrimesPerPop ~ ., data=train, method='anova', control=control1)

然后我用它来预测测试集

predict1 <- predict(train_control, newdata=test)

但是我不确定如何计算测试集的均方误差,因为它需要响应变量 ViolentCrimesPerPop,而该变量在测试集中没有给出。有人可以给我一个关于如何解决这个问题的提示吗?

4

3 回答 3

0

你是否在做一些不为测试集提供响应变量的 Kaggle 测试?

无论如何,尝试将您的训练集拆分为新的子集,并将部分用作训练,其余部分用于测试您的模型。如果没有响应变量,您将无法评估模型性能。

于 2018-10-23T21:39:35.037 回答
0

您可以找到只知道基本事实的 MSE。如果您不知道测试标签,那么唯一的方法是使用 70% 或 80% 的训练数据训练您的模型,并在其他 20/30% 的训练数据上测试 MSE。

于 2018-10-30T13:11:50.027 回答
0

如果您不知道基本事实(响应变量),您将无法计算测试集的 MSE。但是,您可能被要求将包含基本事实的数据集拆分为训练和测试;在这种情况下,您可以轻松计算 MSE。

于 2018-10-23T21:39:24.413 回答