1

我正在尝试使用OLS回归来预测ustar的缺失(NAN)值,使用风速(WS)的已知数据,WS按月的变化和辐射(Rn)使用刚刚提到的所有变量的已知值。公式中的所有变量在数据框中的某个点确实有一些缺失的数据,但是我的回归公式给了我与公式中所有变量的强相关性和 0.80 的 R 平方值,所以我知道这种填补空白的方法预测回归数据是可行的。下面是我的代码:

regression_data = pd.DataFrame([])
regression_data['ustar'] = data['ustar']
regression_data['WS'] = data['WS']
regression_data['Rn'] = data['Rn']
regression_data['month'] = data.index.month
formula = "ustar ~ WS + (WS:C(month)) + (WS:Rn) + 1"
regression_model = sm.regression.linear_model.OLS.from_formula(formula,regression_data)
results = regression_model.fit()
predicted_values = results.predict(regression_data)
Traceback (most recent call last):

File "<ipython-input-61-073df0b2ae63>", line 1, in <module>
predicted_values = results.predict(regression_data)

File "/Users/JasonDucker/anaconda/lib/python3.5/site-packages/statsmodels/base/model.py", line 739, in predict
exog = dmatrix(self.model.data.orig_exog.design_info.builder,

File "/Users/JasonDucker/anaconda/lib/python3.5/site-packages/pandas/core/generic.py", line 2360, in __getattr__
(type(self).__name__, name))

AttributeError: 'DataFrame' object has no attribute 'design_info'

我知道过去曾出现过同样错误的类似问题,但我知道我的公式的复杂性是否在“预测”属性编码中处理得不好。我想知道是否有人对我应该如何解决这个问题有看法。

4

0 回答 0