scikit-learn - 使用 scikit-learn 的置换测试进行显着测试，所有分类器的 p 值相同

Question

我正在尝试使用 scikit-learn 的排列测试找出结果的重要性，如下所示：

score, permutation_scores, pvalue = permutation_test_score(clf.best_estimator_, X_train, Y_train, cv=10, n_jobs=10, n_permutations=100, scoring='accuracy')

其中 clf.best_estimator 是交叉验证的结果。

我将它用于几个分类器（几个独立的 clf.best_estimator_），但它们的 p 值都是相同的 0.00990099009901。

我不知道为什么会这样。奇怪的是，这与 scikit-learn 用户指南中链接代码中报告的数字相同。

score 0 · Accepted Answer

我在 scikit-learn 的问题中问了同样的问题，答案是：对于大多数好的分类器，如果随机分类器在 100 次测试中的 1 次测试中优于训练分类器，那么这个幻数就是结果。

所以这个神奇的数字没有任何问题。

scikit-learn - 使用 scikit-learn 的置换测试进行显着测试，所有分类器的 p 值相同

1 回答 1

Related

Reference