-2

我正在努力理解训练/测试数据对我正确分类的实例结果的影响。

一个朴素贝叶斯的例子,如果我在百分比分割中应用更多的测试数据,算法变得更可靠?

4

1 回答 1

1

将整个数据集拆分为训练和测试的要点是,您想要学习的模型(朴素贝叶斯或其他)应该反映因果关系(特征和预测)之间的真实关系,而不仅仅是数据。例如,您始终可以将曲线完美地拟合到多个数据点,但这样做可能会使其对您试图做出的预测毫无用处。

通过使用单独的测试集,学习模型在看不见的数据上进行测试。理想情况下,训练集和测试集上的误差(或您要测量的任何东西)大致相同,这表明您的模型相当普遍,并且不会过度拟合训练数据。

如果在您的情况下,减小训练集的大小会提高测试集的性能,则表明学习的模型过于具体,无法泛化。但是,您应该调整学习器的参数,而不是更改训练/测试拆分。您可能还想考虑使用交叉验证而不是简单的训练/测试拆分,因为它将提供更可靠的性能估计。

于 2012-12-27T05:14:39.553 回答