0

我有个疑问。我理解交叉验证和拆分概念,分类器将从训练数据中学习并测试测试数据拆分。

如果我首先使用“使用训练数据”运行分类,然后在分类选项卡中使用“提供的测试集”选项并再次运行,是否会发生同样的事情。

为了在分类选项卡中更清楚,我运行了两次...首先在预处理选项卡下上传训练数据集,然后在分类选项卡“提供的测试集”选项中上传测试集运行。那么在执行测试数据时,模型是否使用之前完成的训练?

我使用朴素贝叶斯分类器。我也怀疑所有分类器都是从训练数据中学习的,还是只是像神经网络、决策树这样的分类器?

4

1 回答 1

2

您在“分类选项卡”中提到的选项允许您选择如何评估已构建的模型。每次您在分类选项卡中按下“开始”时,都会构建一个新的分类器。对于您列出的选项,此分类器将使用“预处理”选项卡中的整个当前数据集。无论您是提供测试数据集,还是使用训练数据,都将构建相同的分类器。Weka 在构建新分类器时不会使用先前构建的分类器中的任何信息,至少以您描述的方式。

两种测试选项的区别如下:

  1. “使用训练数据”将使用构建的分类器来预测训练实例。此选项通常对分类器的未来性能给出过于乐观的估计。

  2. “提供的测试集”将使用独立的测试集。鉴于此测试集是以公平的方式构建的,您应该对分类器的未来性能进行无偏估计。

为了解决您的最后一个问题,大多数分类器都尝试从训练数据中导出模型。这通常被认为是学习。但是,一些分类器,例如 IBk,并不诱导模型,而是使用训练数据本身来进行未来预测。这些都是相当不错的点,最好说所有Weka 分类器都根据训练数据做出预测。

于 2013-10-05T16:35:02.673 回答