所以这个问题可能看起来有点愚蠢,但我无法理解它。测试数据的目的是什么?只是计算分类器的准确性吗?我正在使用朴素贝叶斯对推文进行情绪分析。一旦我使用训练数据训练了我的分类器,我就使用测试数据来计算分类器的准确性。如何使用测试数据来提高分类器的性能?
问问题
409 次
2 回答
1
在进行一般监督机器学习时,测试数据集在确定模型的性能方面起着关键作用。您通常会使用 90% 的输入数据构建模型,留出 10% 用于测试。然后,您可以通过查看它在 10% 训练集上的表现来检查该模型的准确性。模型对测试数据的性能是有意义的,因为模型从未“看到”过这些数据。如果模型在统计上是有效的,那么它应该在训练和测试数据集上都表现良好。这个通用过程称为交叉验证,您可以在此处阅读有关它的更多信息。
于 2015-03-02T05:44:49.227 回答
0
您不会 - 就像您猜测的那样,测试数据用于测试,不得用于其他任何事情,以免您歪曲您的准确性测量。这是任何机器学习的重要基石——如果你使用测试数据进行训练,你只会自欺欺人。
如果您正在考虑这样的绝望措施,那么正确的前进方式通常是重新检查您的问题空间和您拥有的解决方案。它是否充分模拟了您要解决的问题?如果没有,你能设计一个更好的模型来捕捉问题的本质吗?
机器学习不是灵丹妙药。它不会为您解决问题。太多失败的实验一遍又一遍地证明,“垃圾进——垃圾出”。
于 2015-03-02T05:36:52.877 回答