我必须在不同的数据挖掘算法之间进行三种不同的比较。
唯一有问题的比较类型是最基本的比较,单个数据集上的两种算法- 对我来说是有问题的比较。
我知道Diettrich (1998)论文将McNemar和5x2CV作为选择和状态的选项,重新采样的 t 检验是不可行的。由于分析是使用子样本、60:40 training:test-splits 和总成本作为性能度量的更大设置的一部分,但我不能使用这些。
在这种情况下,还有哪些其他选项可以评估性能?
符号检验:仅计算两种算法各自表现更好的情况的数量,然后使用二项分布检查 p 值。问题很弱。
Wilcoxon-signed-rank-test:作为我想到的第一个 t 检验的非参数替代方案,但在任何论文中都没有提到这种比较,仅用于使用平均性能结果比较几个数据集上的两种算法几次迭代。是否不可行,如果可行,为什么?