python - 一个好的模型可以有较低的 R 平方值吗？

Question

我使用 scikit learn 进行了线性回归

当我在测试数据上看到我的均方误差时，它非常低（0.09）

当我在测试数据上看到我的 r2_score 时，它也非常少（0.05）

据我所知，当均方误差很低时，表明当前模型很好，但 r2_score 非常低，这告诉我们模型不好

我不明白我的回归模型好不好

一个好的模型可以具有较低的 R 平方值还是较差的模型可以具有较低的均方误差值？

score 1 · Accepted Answer

R^2 是衡量您的拟合程度如何代表数据。

假设您的数据具有线性趋势并且上面有一些噪音。我们可以构造数据并查看 R^2 是如何变化的：

数据

我将使用以下方法创建一些数据numpy：

xs = np.random.randint(10, 1000, 2000)
ys = (3 * xs + 8) + np.random.randint(5, 10, 2000)

现在我们可以使用 sinh scikit 创建一个 fit 对象

reg = LinearRegression().fit(xs.reshape(-1, 1), ys.reshape(-1, 1))

我们可以从这个拟合中得到分数。

reg.score(xs.reshape(-1, 1), ys.reshape(-1, 1))

我的 R^2 是：0.9999971914416896

假设我们有一组更分散的数据（上面有更多的噪音）。

ys2 = (3 * xs + 8) + np.random.randint(500, 1000, 2000)

现在我们可以计算的分数，ys2以了解我们的拟合如何代表xs,ys2数据：

reg.score(xs.reshape(-1, 1), ys2.reshape(-1, 1))

我的 R^2 是：0.2377175028951054

分数很低。我们知道数据的趋势没有改变。它仍然是 3x+8 +（噪声）。但ys2离合身更远。

因此，R^2 是您的拟合程度如何代表数据的电感器。但是数据本身的状况很重要。也许即使得分很低，最适合的也是你得到的。由于数据因噪声而分散。