在对模型选择进行交叉验证时,我发现有很多方法可以引用交叉验证分数的“标准差”(这里的“分数”是指评估指标,例如准确度、AUC、损失等)
1) 一种方法是计算 K 折分数平均值的标准偏差(= K 折的标准偏差 / sqrt(K))。
2)第二种方法是只计算K折分数的标准差。可以在这里找到一个例子:
http://scikit-learn.org/stable/auto_examples/svm/plot_svm_anova.html
3)另一种我不完全理解的方式。它似乎计算了 K folds / sqrt(N) 的标准偏差,其中 N 是数据集的大小......
http://scikit-learn.org/stable/auto_examples/exercises/plot_cv_diabetes.html
我个人认为 1) 是正确的,因为我们更关心样本均值的标准误差(这里 = K 倍验证的平均分数)而不是样本的标准差。谁能解释首选哪种方式?