我想使用 RandomSplits 在 Spark 中执行两个交叉验证过程,例如
- CV_global:通过将数据分成 90% 的训练集和 10% 的测试集
1.1。CV_grid:对一半训练集进行网格搜索,即 45% 的数据。
1.2. 拟合模型:在训练集 (90%) 上使用来自 CV_grid 的最佳设置。
1.3测试模型:在测试集上(10%)
- 报告每 10 倍的平均指标和全局指标。
问题是我只在整个训练集上使用 CV 和网格搜索找到示例。
如何从 CV_grid 获取性能最佳模型的参数?
如何在没有网格搜索的情况下进行 CV,但获取每折叠的统计信息?例如 sklearn.cross_validation.cross_val_score