0

来自维基百科:

在 k 折交叉验证中,原始样本被随机划分为 k 个大小相等的子样本。

我正在做一个 10 折交叉验证项目。我有一个包含 76 个元素的数据集。这意味着我不能拥有相同大小的分区。

剩余数据的方法是什么(在我的示例 6 数据中)?忽略它们,使数据有 16 个元素,6 个分区有 11 个元素等等?

4

2 回答 2

0

你不要忽视他们!

简单地说,您可以将 6 个数据点随机分布在 10 个折叠中。

另一种方法是将它们添加到任何折叠中。最后,这些点将按预期通过一次测试。

于 2012-11-19T10:08:42.597 回答
0

你有两个简单的选择。如果您真的想使用 10 折验证,请使用包含 7 个元素的部分折叠和包含 8 个元素的部分。真的没关系。或者,使用四折验证,每折包含 19 个元素。

两者都可以,您不太可能看到那么大的差异。您很少会得到完全相同的折叠,但由于您的数据集很小,随着训练示例数量的变化,您可能会看到折叠之间的差异更大。然而,我对此表示怀疑。

于 2012-11-19T09:53:51.843 回答