1

我是使用 statsmodels 的初学者,我也愿意使用其他基于 Python 的方法来解决我的问题:

我有一个包含约 85 个特征的数据集,其中一些特征高度相关。当我运行 OLS 方法时,我得到了一个有用的“强多重共线性问题”警告,正如我所料。

我之前通过 Weka 运行过这些数据,作为回归分类器的一部分,Weka 有一个 removeColinearAttributes 选项。

我该如何做同样的事情 - 让模型选择要使用的属性,而不是将它们全部放在模型中?谢谢!

4

1 回答 1

1

要运行多元回归,请使用scipy.stats.linregress。看看这个很好的例子,它有一个很好的解释。

您提到的软件中的消除ColinearAttributes 选项只是该软件中为解​​决问题而实现的一些算法。在这里,您需要自己实现一些迭代算法,基于消除具有最高 p 值的高度相关变量之一(然后再次运行回归并重复直到不存在多重共线性)。

这里没有唯一的方法,有不同的技术。从彼此高度相关的一组变量中手动选择也是一个很好的做法,省略它也是有意义的。

于 2014-02-23T15:09:24.140 回答