在 weka 中,如何检查诱导树是否过拟合训练数据?
编辑:
所以现在这些是我的随机森林分类器建立在一个大训练集和一个小得多的验证集(根据大训练集的类比动态生成)的结果。
你说如果过拟合,测试集(我称之为验证集)的性能会下降很多吗?但在这种情况下,它似乎并没有下降太多。
大型训练集(25000 条记录)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 24849 99.3563 %
Incorrectly Classified Instances 161 0.6437 %
Kappa statistic 0.9886
Mean absolute error 0.0344
Root mean squared error 0.0887
Relative absolute error 30.31 %
Root relative squared error 37.2327 %
Total Number of Instances 25010
验证集(IID?)(5000 条记录)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 4951 99.02 %
Incorrectly Classified Instances 49 0.98 %
Kappa statistic 0.9827
Mean absolute error 0.0402
Root mean squared error 0.0999
Relative absolute error 35.269 %
Root relative squared error 41.8963 %
Total Number of Instances 5000