使用与数据集相比太小的 K 值会产生什么后果?
问问题
656 次
2 回答
0
的值K
指定您计划将数据集拆分成的折叠数。较小的值K
意味着数据集被分成较少的部分,但每个部分包含较大百分比的数据集。
获取一个有 100 行的数据集。
- 2 折交叉验证 - 每折将包含 50 行。
- 10 折交叉验证 - 每折将包含 10 行。
这样,在训练时,10 折交叉验证将有 90-10 的训练测试拆分,而 2 折交叉验证将有 50-50 的训练测试拆分。
使用更多折叠,将为模型提供更多要训练的数据,但需要更多时间,因为它必须K
单独训练和验证时间。
于 2019-12-23T13:26:52.093 回答
0
K-fold Cross-validation 中的 K 表示我们希望将训练数据分成多少等份,并对给定的有限训练数据执行 K 次重新采样。
正面:
- 即使数据有限,也可以开发出一个好的模型。
- 我们得到了超参数的最佳值(KNN 中的 k,朴素贝叶斯中的 alpha 等),这为我们提供了最佳性能指标(准确度、AUC、精度等)。
负面:
- 当我们训练模型 K 次时,计算最优超参数所需的时间增加了 K 次。
于 2019-12-23T14:03:43.883 回答