1

我正在尝试为具体问题选择最佳预测/分类模型。我被要求遵循的方法是这样的:

  • 将数据分为测试和训练。
  • 使用训练数据运行具体模型,并使用 10 倍交叉验证对其进行评估,以获得该模型的最佳参数(评估给定的误差)。
  • 对其他模型重复,直到我为每个选择的分类模型获得最佳配置。
  • 最后,我必须使用最好的参数集重新运行每个模型,其中要训练的数据是“trainingdata”,而作为结果给出的错误可能来自“testdata”(请注意,测试数据直到现在,以避免最终比较失真)。

我一直在使用包 TunePareto 执行此操作,它具有一个很好且易于运行的功能,可以在数据帧上运行一些分类模型(如 Naive Byes 或 kNN)以及 10 倍 CV。我提到的最后一个任务出现了问题:我不知道如何使用特定的数据帧作为 TunePareto 的测试。有人可以帮我吗?

我搜索了一些示例,但一无所获。如果 TunePareto 不允许这样做,我会很高兴听到替代方案。

谢谢 !!!

4

1 回答 1

0

从文档中,该函数tuneParetoClassifier似乎有一个参数testDataName,您可以在其中提供独立的测试数据集。这是函数的定义:

tuneParetoClassifier(name, classifier, classifierParamNames = NULL, predefinedClassifierParams = NULL, predictor = NULL, predictorParamNames = NULL, predefinedPredictorParams = NULL, useFormula = FALSE, formulaName = "formula", trainDataName = "x", trainLabelName = "y", testDataName = "newdata", modelName = "object", requiredPackages = NULL)
于 2013-01-10T20:03:37.210 回答