我想使用五重交叉验证来评估 GAM 在预测新数据方面的性能。模型训练基于 80% 数据的随机子集和剩余 20% 的测试集。我可以计算训练数据和测试数据之间的均方预测误差,但不确定如何在 k-folds 中实现这一点。我有以下代码用于训练和测试数据集以及计算 MSPE。我没有包含样本数据,但可以这样做。
indexes<-sample(1:nrow(data),size=0.2*nrow(data))
testP<-data[indexes,] #20%
trainP<-data[-indexes,]#80%
gam0<-gam(x~ NULL,family=quasibinomial(link='logit'),data=data,gamma=1.4)
pv<-predict(gam0,newdata=testP,type="response")
diff<-pv-testP$x #(predicted - observed)
diff2<-diff^2 #(predicted - observed)^2
mspegam0<-mean(diff2)