我正在使用 10 折交叉验证在 Weka 中做一个小分类任务。对于特征选择和调整分类器的参数,我使用了我数据的一小部分。我知道通常应该使用训练集和开发集。但由于时间和计算能力不足,我只使用了所有数据的一小部分。这会以任何方式影响结果吗?谢谢!
问问题
50 次
1 回答
1
是的。根据偏见的定义,使用一个小集合意味着你将对你决定训练的任何部分有更高的偏见。但是,如果您从较大的数据集中随机选择小样本,则这种偏差将大大减少。
如果你只是使用一小组数据,10 折交叉验证没有多大意义。交叉验证的想法是将一个大数据集分成多个部分,用其中的交替部分作为训练集和测试集进行训练,迭代直到找到所有交叉验证集的最佳解决方案。
如果您没有太多时间或计算能力,我的第一个建议是减少您的 10 倍简历检查。这意味着您可以在相同的计算时间内包含更大部分的数据集,并在 Weka 中快速评估许多不同的模型,然后再决定哪个模型更有希望继续推进。
如果您可以选择,对于您的最终数据运行,我强烈建议您使用完整集,但是当您决定使用哪种算法时,使用完整集的一部分并不可怕。
于 2013-08-15T21:36:27.530 回答