0

使用与数据集相比太小的 K 值会产生什么后果?

4

2 回答 2

0

的值K指定您计划将数据集拆分成的折叠数。较小的值K意味着数据集被分成较少的部分,但每个部分包含较大百分比的数据集。

获取一个有 100 行的数据集。

  • 2 折交叉验证 - 每折将包含 50 行。
  • 10 折交叉验证 - 每折将包含 10 行。

这样,在训练时,10 折交叉验证将有 90-10 的训练测试拆分,而 2 折交叉验证将有 50-50 的训练测试拆分。

使用更多折叠,将为模型提供更多要训练的数据,但需要更多时间,因为它必须K单独训练和验证时间。

于 2019-12-23T13:26:52.093 回答
0

K-fold Cross-validation 中的 K 表示我们希望将训练数据分成多少等份,并对给定的有限训练数据执行 K 次重新采样。

正面:

  • 即使数据有限,也可以开发出一个好的模型。
  • 我们得到了超参数的最佳值(KNN 中的 k,朴素贝叶斯中的 alpha 等),这为我们提供了最佳性能指标(准确度、AUC、精度等)。

负面:

  • 当我们训练模型 K 次时,计算最优超参数所需的时间增加了 K 次。
于 2019-12-23T14:03:43.883 回答