0

我的问题是:在sklearn中,如何计算cv_values_给出的RidgeCV?为什么它与输出不同metrics.mean_squared_error

例如,

X = [1,2,3,4,5,6,7,8,9,10]
X = np.array(X).reshape(-1,1)
y = np.array([1,3.5,4,4.9,6.1,7.2,8.1,8.9,10,11.1])
ax.plot(X, y, 'o')
ax.plot(X, X+1, '-') # help visualize

在此处输入图像描述

假设我们在 X 和 y 上训练 Ridge 模型

from sklearn.linear_model import RidgeCV
from sklearn.metrics import mean_squared_error
model = RidgeCV(alphas = [0.001], store_cv_values=True).fit(X, y)

现在的输出

mean_squared_error(y_true=y, y_pred=model.predict(X))

0.1204000013110009,而输出

model.cv_values_.mean()

0.24472577167818438

为什么会有如此巨大的差异?我错过了一些明显的东西吗?

4

1 回答 1

1

来自官网链接

cv_values_

每个 alpha的交叉验证值(如果 store_cv_values=True 和 cv=None)。调用 fit() 后,此属性将包含均方误差(默认情况下)或 {loss,score}_func 函数的值(如果在构造函数中提供)。

在你的情况下,当你打电话给

model = RidgeCV(alphas = [0.001], store_cv_values=True).fit(X, y)

你有:cv=None

cv=None表示您使用 Leave-One-Out 交叉验证。

因此cv_values,使用 Leave-One 交叉验证存储每个样本的均方误差。在每个折叠中,您只有 1 个测试点,因此 n = 1。因此cv_values_,当它是测试折叠的一部分时,将为您提供训练数据集中每个点的平方误差。

最后,这意味着当您调用 时model.cv_values_.mean(),您会得到这些单独误差的平均值(每个点的每个误差的平均值)。要查看这些单独的错误,您可以使用print(model.cv_values_)

个体表示以下等式中的 n=1:

在此处输入图像描述

另一方面,mean_squared_error(y_true=y, y_pred=model.predict(X))意味着您将 n=10 放入此等式中。

所以这2个结果会有所不同。

于 2017-07-04T17:11:59.060 回答