2

我正在使用sklearn.feature_selection.RFECV

ref = RFECV(lr, step=1, cv =5, scoring="r2")
ref.fit(X_ndarr, y_ndarr)
print(ref.grid_scores_)

我得到:

[ 0.9316829 0.93472609 0.79440118 -2.37744438 -1.20559428 -1.35899883 -0.90087801 -1.02047363 -0.54169276 -0.08116821 -0.00685128 0.1561999 -0.26433411 -0.27843449 -0.32703359 -0.32782641 -0.30881354 0.11878835 0.08175137 0.04300757
0.0378917 0.04534877]

RFECV在每个步骤中删除最不重要的特征,因此例如 10 个特征的得分应该是任何 10 个特征的最佳得分,而当我使用选定的 10 个特征(使用另一种方式)运行下面的代码时:

from sklearn.model_selection import cross_val_score
lr = linear_model.LinearRegression()
scores = cross_val_score(lr, X_top10_ndarr, y_ndarr, cv=5) # top10 features

然后我得到:

交叉验证分数:[0.96706997 0.9653103 0.96386666 0.96017565 0.96603127]

所有的分数都在0.96左右,而 10 个特征的分数RFECV-0.08

这里到底发生了什么?

EDIT1:所选功能的数量2如下ranking_

[ 4 7 1 6 3 2 8 11 5 10 21 9 12 14 13 15 16 19 18 17 1 20]

4

1 回答 1

0

ref.grid_scores_表示交叉验证分数,使得 grid_scores_[i] 对应于第 i 个特征子集的 CV 分数。

有关这些值的更多理解,请参阅答案。

按照这种解释,模型对 10 个特征的 cv 分数将是 -0.26433411

话虽如此,分数确实很差,因为它是负数,可能线性模型可能不适合您的数据集。

还有一点需要注意的是,即使是所有功能,你也只有 0.9316829,小于 0.96。

可以random_state使用 StratifiedKFold 设置 a 并将其作为 cv 参数值提供。

于 2019-09-06T05:56:59.287 回答