3

我想知道我是否可以一次将pandas.ols模型应用于针对一个自变量的多个响应变量的数据框。

所以想象我有以下内容:

In [109]: y=pandas.DataFrame(np.random.randn(10,4))
In [110]: x=pandas.DataFrame(np.random.randn(10,1))

我想做这样的事情:

In [111]: model=pandas.ols(y=y, x=x)

基本上用四个模型输出的结果或至少获得四个的系数。如果可能的话,我宁愿避免遍历响应变量。

4

2 回答 2

1

我认为应该这样做。

#First generate the data
x=pd.DataFrame(np.random.randn(10,1))
y=pd.DataFrame(np.random.randn(10,4))

#Since we are doing things manually we'll need to add the constant term to the x matrix
x[1] = ones(10)

#This matrix precomputes (X'X)^-1X which we will premultiply the y matrix by to get results
tmpmat =  np.dot(np.linalg.pinv(np.dot(x.T ,x)),x.T)

#Solve for the betas
betamatrix = np.dot(tmpmat,y)

#Compare with the pandas output one at a time.
model=pd.ols(y=y[0], x=x, intercept=False)
model=pd.ols(y=y[1], x=x, intercept=False)
于 2013-04-12T18:38:21.383 回答
0

已经这样做了很多次,但还没有找到循环的替代方法。以下代码将四个回归的结果存储在一个字典中。如果您只对某些系数感兴趣,则可以在循环回归时捕获它们。

model = {}
for i in y:
    model[i] = pd.ols(y=y[i], x=x)
于 2013-06-14T10:44:54.363 回答