machine-learning - 不具有相等分区的 K 折交叉验证的分区数据

Question

来自维基百科：

在 k 折交叉验证中，原始样本被随机划分为 k 个大小相等的子样本。

我正在做一个 10 折交叉验证项目。我有一个包含 76 个元素的数据集。这意味着我不能拥有相同大小的分区。

剩余数据的方法是什么（在我的示例 6 数据中）？忽略它们，使数据有 16 个元素，6 个分区有 11 个元素等等？

score 0 · Accepted Answer

你不要忽视他们！

简单地说，您可以将 6 个数据点随机分布在 10 个折叠中。

另一种方法是将它们添加到任何折叠中。最后，这些点将按预期通过一次测试。

score 0 · Accepted Answer

你有两个简单的选择。如果您真的想使用 10 折验证，请使用包含 7 个元素的部分折叠和包含 8 个元素的部分。真的没关系。或者，使用四折验证，每折包含 19 个元素。

两者都可以，您不太可能看到那么大的差异。您很少会得到完全相同的折叠，但由于您的数据集很小，随着训练示例数量的变化，您可能会看到折叠之间的差异更大。然而，我对此表示怀疑。

2 回答 2