1

我必须在不同的数据挖掘算法之间进行三种不同的比较。

唯一有问题的比较类型是最基本的比较,单个数据集上的两种算法- 对我来说是有问题的比较。

我知道Diettrich (1998)论文将McNemar5x2CV作为选择和状态的选项,重新采样的 t 检验是不可行的。由于分析是使用子样本、60:40 training:test-splits 和总成本作为性能度量的更大设置的一部分,但我不能使用这些。

在这种情况下,还有哪些其他选项可以评估性能?

  • 符号检验:仅计算两种算法各自表现更好的情况的数量,然后使用二项分布检查 p 值。问题很弱。

  • Wilcoxon-signed-rank-test:作为我想到的第一个 t 检验的非参数替代方案,但在任何论文中都没有提到这种比较,仅用于使用平均性能结果比较几个数据集上的两种算法几次迭代。是否不可行,如果可行,为什么?

4

1 回答 1

0

两者之间的一个明显区别是 Wilcoxon 符号秩检验要求您计算一对中两个成员之间的差值,然后对这些差值进行排序。如果对于一对中的每个成员,您拥有的唯一信息是数据挖掘程序是否正确猜测了其成员的类别,那么将只有三个可能的符号秩——-1、0、1 和 Wilcoxon 符号秩检验将等价于 McNemar 检验,这实际上只是一种计算符号检验近似尾值的方法。如果比较一对中两个成员的结果是有意义的,而不是将它们相减并得到一个数字,那么你又回到了符号测试。

这听起来像是一个让你做一些统计测试的练习,但如果这是现实生活中的事情,我的第一个想法是弄清楚你为什么真正关心进行数据挖掘练习,也许将其减少到一个价值钱的条款,然后寻找代表最好的测试。

于 2013-09-11T04:16:54.853 回答