我正在尝试为具体问题选择最佳预测/分类模型。我被要求遵循的方法是这样的:
- 将数据分为测试和训练。
- 使用训练数据运行具体模型,并使用 10 倍交叉验证对其进行评估,以获得该模型的最佳参数(评估给定的误差)。
- 对其他模型重复,直到我为每个选择的分类模型获得最佳配置。
- 最后,我必须使用最好的参数集重新运行每个模型,其中要训练的数据是“trainingdata”,而作为结果给出的错误可能来自“testdata”(请注意,测试数据直到现在,以避免最终比较失真)。
我一直在使用包 TunePareto 执行此操作,它具有一个很好且易于运行的功能,可以在数据帧上运行一些分类模型(如 Naive Byes 或 kNN)以及 10 倍 CV。我提到的最后一个任务出现了问题:我不知道如何使用特定的数据帧作为 TunePareto 的测试。有人可以帮我吗?
我搜索了一些示例,但一无所获。如果 TunePareto 不允许这样做,我会很高兴听到替代方案。
谢谢 !!!