python - 使用带有 statsmodels 的 OLS 模型预测值

Question

我使用 OLS（多元线性回归）计算了一个模型。我将数据划分为训练和测试（各一半），然后我想预测第二半标签的值。

model = OLS(labels[:half], data[:half])
predictions = model.predict(data[half:])

问题是我得到了错误：文件“/usr/local/lib/python2.7/dist-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/regression/linear_model.py” ，第 281 行，在预测返回 np.dot(exog, params) ValueError: 矩阵未对齐

我有以下数组形状： data.shape: (426, 215) labels.shape: (426,)

如果我将输入转换为 model.predict，我确实得到了一个结果，但形状为 (426,213)，所以我认为它也是错误的（我希望一个包含 213 个数字的向量作为标签预测）：

model.predict(data[half:].T)

知道如何让它工作吗？

score 19 · Accepted Answer

对于 statsmodels >=0.4，如果我没记错的话

model.predict不知道参数，并在调用中需要它们，请参阅http://statsmodels.sourceforge.net/stable/generated/statsmodels.regression.linear_model.OLS.predict.html

在您的情况下应该工作的是拟合模型，然后使用结果实例的 predict 方法。

model = OLS(labels[:half], data[:half])
results = model.fit()
predictions = results.predict(data[half:])

或更短

results = OLS(labels[:half], data[:half]).fit()
predictions = results.predict(data[half:])

http://statsmodels.sourceforge.net/stable/generated/statsmodels.regression.linear_model.RegressionResults.predict.html 缺少文档字符串

注意：这在开发版本中已更改（向后兼容），可以利用预测 http://statsmodels.sourceforge.net/devel/generated/statsmodels.regression.linear_model.RegressionResults.predict 中的“公式”信息。 html

score 3 · Accepted Answer

您还可以调用对象的get_prediction方法Results来获取预测及其误差估计和置信区间。例子：

import numpy as np
import statsmodels.api as sm

X = np.array([0, 1, 2, 3])
y = np.array([1, 2, 3.5, 4])
X = sm.add_constant(X)
model = sm.OLS(y, X)
results = model.fit()

预测：

# Predict at x=2.5
X_test = np.array([1, 2.5])  # "1" refers to the intercept term
results.get_prediction(X_test).summary_frame(alpha=0.05)  # alpha = significance level for confidence interval

给出：

    mean    mean_se mean_ci_lower   mean_ci_upper   obs_ci_lower    obs_ci_upper
0   3.675   0.198431    2.821219    4.528781    2.142416    5.207584

其中mean_ci指的是置信区间，obs_ci指的是预测区间。

python - 使用带有 statsmodels 的 OLS 模型预测值

2 回答 2

Related

Reference