0

我正在使用 pandas 在一个相当大的数据集上运行多元回归,该数据集具有约 40 个自变量。但是,对于其中一些变量,pandas 可以计算系数,但不能计算标准误差(因此不能计算 t-stat、p-value 等)。这是回归输出的一部分:

...
 var1      0.0000     0.0001       0.46     0.6488    -0.0002     0.0002
 var2     25.8603        nan        nan        nan        nan        nan
 var3      9.5578        nan        nan        nan        nan        nan
--------------------------------------------------------------------------------
 var4     -4.7974        nan        nan        nan        nan        nan
 var5      2.9619        nan        nan        nan        nan        nan
 var6      1.9343        nan        nan        nan        nan        nan
 var7    -24.8932        nan        nan        nan        nan        nan
 var8      4.7703        nan        nan        nan        nan        nan
--------------------------------------------------------------------------------
 var9    -16.0344        nan        nan        nan        nan        nan
 var10     5.8313        nan        nan        nan        nan        nan
 var11    -3.1322        nan        nan        nan        nan        nan
 var12     5.5747     1.4304       3.90     0.0001     2.7711     8.3784
 var13     4.0470     1.8455       2.19     0.0284     0.4299     7.6641
...

请注意,所有带有 nan 的 var 都是二进制变量,但是在存在标准错误的变量中,有些是二进制的,有些是正常的连续变量。

以前有人经历过吗?

4

1 回答 1

0

认为我找到了答案:那些具有“nan”问题的二进制变量导致多重共线性(对于该集合中的一个虚拟变量,每个数据点都是 1)。删除这些虚拟变量之一解决了问题!没想到 pandas 仍然会尝试使用这些数据进行计算,但确实如此!

于 2013-04-17T17:08:50.037 回答