我从事机器学习工作。我被困在一件事上。
我想在 10 个数据集中比较 4 种机器学习技术。进行实验后,我得到了曲线下面积值。在此之后,我应用了方差分析分析,这表明 4 种机器学习技术之间存在显着差异。
现在我的问题是哪个测试将得出结论,与其他算法相比,特定算法表现良好,我只想要机器学习技术中的一个赢家。
我从事机器学习工作。我被困在一件事上。
我想在 10 个数据集中比较 4 种机器学习技术。进行实验后,我得到了曲线下面积值。在此之后,我应用了方差分析分析,这表明 4 种机器学习技术之间存在显着差异。
现在我的问题是哪个测试将得出结论,与其他算法相比,特定算法表现良好,我只想要机器学习技术中的一个赢家。
分类器的质量可以通过衡量测试准确性的F 分数来衡量。比较这些各自的分数将为您提供一个简单的衡量标准。
但是,如果您想衡量分类器准确率之间的差异是否显着,您可以尝试贝叶斯检验,或者,如果分类器训练过一次,则可以使用McNemar 检验。
还有其他可能性,关于比较分类器的论文:要避免的陷阱以及比较监督分类学习算法的推荐方法和近似统计测试可能值得一读。
如果您正在从相同的重采样数据集中收集性能指标(ROC、准确性、敏感性、特异性...),那么您可以使用配对比较来执行统计测试。大多数统计软件都使用 Tukeys Range 检验 (ANOVA)。 https://en.wikipedia.org/wiki/Tukey%27s_range_test。此材料的正式处理在这里:http ://epub.ub.uni-muenchen.de/4134/1/tr030.pdf 。这是我喜欢用于您讨论的目的的测试,尽管还有其他人并且人们有不同的意见。
您仍然需要根据数据(k-fold)、重复(k-fold)、bootstrap、遗漏一个、重复训练测试拆分来选择如何采样。Bootstrap 方法往往会在遗漏一个后为您提供最紧密的置信区间;但是,如果您的数据量很大,那么留下一个可能不是一种选择。
话虽如此,您可能还需要考虑问题域。误报可能是分类中的一个问题。您可能需要考虑其他指标来选择该领域的最佳表现者。AUC 可能并不总是特定领域的最佳模型。例如,信用卡公司可能不想拒绝客户的交易,我们需要对欺诈分类的误报率非常低。
您可能还需要考虑实施。如果逻辑回归的表现也差不多,那么它可能是比更复杂的随机森林实现更好的选择。模型使用是否有法律影响(公平信用报告法...)?
一种常识性方法是从诸如 RF 或 Gradient 增强树之类的东西开始,以获得性能上限的经验感。然后构建更简单的模型并使用与天花板相比性能合理的更简单的模型。
或者,您可以使用 LASSO 之类的东西组合所有模型……或其他模型。