我已经在weka工作了几个月了。目前,我正在 Ostfold 大学学院学习我的机器学习课程。我需要一种更好的方法来构建基于分离的训练和测试集的决策树。任何想出好主意的人都可以得到很大的缓解。提前谢谢。
-新
我已经在weka工作了几个月了。目前,我正在 Ostfold 大学学院学习我的机器学习课程。我需要一种更好的方法来构建基于分离的训练和测试集的决策树。任何想出好主意的人都可以得到很大的缓解。提前谢谢。
-新
您可能会要求更具体的内容,但总的来说:
您使用训练集构建决策树,并使用测试集评估该树的性能。换句话说,在测试数据上,您调用一个通常命名为 c*lassify* 的函数,传入新建的树和您希望分类的数据点(在您的测试集中)。
此函数从您的树中返回该数据点所属的叶(终端)节点 - 并假设该叶的内容是同质的(填充来自单个类的数据,而不是混合数据),那么您实际上分配了一个该数据点的类标签。当您将树分配的类标签与数据点的实际类标签进行比较,并对测试集中的所有实例进行重复时,您就有了一个指标来评估树的性能。
经验法则:打乱你的数据,然后将 90% 分配给训练集,另外 10% 分配给测试集。
实际上我正在寻找这样的东西 - http://weka.wikispaces.com/Saving+and+loading+models 来保存模型,加载它并在训练集中使用它。这正是我一直在寻找的。希望它对与我有类似问题的人有用。干杯-Neo182