“multicollinearity”的相关标签问题

0 投票

0 回答

111 浏览

r - 如何计算 R 中不平衡面板数据的相关随机效应模型 (CRE) 中变量的聚类平均值？

[编辑 2]

通过添加random.method="walhus"到 plm（也适用于random.method="nerlove"）并继续使用 Between(variable)变量的集群/时间平均值来解决它

我想为不平衡的面板数据创建一个回归模型，并发现我必须实施一个相关的随机效应模型，因为我的变量之一（gind，相应公司的行业，例如房地产、信息技术等）是时间不变的。数据来自 Compustat 数据库。

随机效应模型如下所示：

gvkey是唯一的公司标识符，fyear是相应的年份。 fsts是国外销售额与总销售额的比率（衡量公司国际化程度），rota是衡量公司业绩（总资产回报率）的指标。

数据是不平衡的，因为每家公司都在 1-6 年之间被观察到。

要将模型转换为相关的随机效应模型（也称为“中间模型”、“Mundlak 过程”或“混合方法”），我读到必须添加随时间变化的变量的聚类均值（所以在我的情况firm_size, rota, debt_to_assets和r_d_intensity)。

在一篇关于该主题的论文 ( https://www.researchgate.net/publication/336608555_On_Ignoring_the_Random_Effects_Assumption_in_Multilevel_Models_Review_Critique_and_Recommendations ) 中，他们展示了如何在 R 中实施一个示例。可以想象它显示了 500 家公司，每家公司都观察了 10 年。x 是时变变量，z 是时不变变量。这是生成模型的代码（从上述论文中复制）：

然后他们像这样计算 x 的聚类平均值：

完成的 CRE 模型如下所示：

我现在的问题是如何修改计算x_cl以使其适合我的数据和模型？如何修改lead_n？如何执行计算，以便为每个公司 (= gvkey) 重新计算以年为单位的时间跨度？

总的来说，我对 R 和编程并不是很有经验，所以我无法理解它。

Between(variable)当然，也欢迎对可能已经实现整个问题的其他 R 包提出建议（类似于下面的）！

我尝试按照以下链接Estimating within-between model specification using plm中描述的实现来计算集群意味着，并提出了这个模型：

不幸的是，这会引发错误：

我认为发生错误是因为面板不平衡。这是真的吗？（它不能源于数据中的 NA，因为na.rm=TRUE无论如何我都事先从数据中添加并删除了所有 NA 值）

[编辑]

经过更多的调查，我发现这个错误不会发生，因为面板不平衡，而是因为时间平均值和变量之间存在多重共线性（所以firm_size和Between(firm_size)相关，rota和Between(rota)相关等），这显然不足为奇。

当添加变量的平均值时，总是会出现结构多重共线性。我已经尝试标准化（scale(x)）集群意味着，但错误仍然存在。

为什么我的数据似乎有问题，而这是这种回归模型的推荐方法？

2021-06-18T20:12:04.797

0 投票

1 回答

31 浏览

r - 截距和斜率之间的共线性随时间编码变化 - 线性混合效应模型

我目前正在尝试运行线性混合效应模型来估计压力如何随时间变化（超过 6 个时间点）。我注意到，当为我的样本中的每个人提取应力轨迹的截距和斜率时，这些因素之间存在高度相关性。但是，这似乎会根据时间的编码方式而改变……对为什么会发生这种情况有任何解释吗？您通常如何处理截距和斜率之间的共线性？任何建议将不胜感激。

下面的可重现示例：

r mixed-models nlme longitudinal multicollinearity

2021-06-22T15:20:47.007

0 投票

0 回答

47 浏览

r - 评估在 r 中使用 caret::train() 创建的回归模型时 car::vif() 出错

正如标题所说，我使用caret::train(). 我曾经train()想使用leapSeq带有 10 倍交叉验证的逐步方法（）。

该模型如下所示。

但是，当我尝试使用来检查模型的 VIF 时car::vif()，它会返回错误

coef.regsubsets(mod) ：缺少参数“id”，没有默认值

错误消息非常简单，但问题是我不知道将参数“id”放在哪里。

检查VIF的代码如下：

如果有人能告诉我如何修复错误，我将不胜感激！

r regression r-caret multicollinearity

2021-06-29T07:47:28.017

0 投票

0 回答

183 浏览

r - 将数据拆分为 70:30，但所有异常值仅在使用 R 的训练样本中

我正在模拟 R 中的数据，以检查当异常值和多重共线性同时存在时哪些模型表现更好。为此，我将数据拆分为 70:30 的随机拆分，但我只需要在 70 个训练样本中引入异常值和多重共线性，并保持测试样本的清洁。 我怎么能在 R 中做到这一点？

以下是我的 R 代码，其中在整个数据中引入了异常值和多重共线性。

r regression outliers mse multicollinearity

2021-07-09T15:47:07.280

0 投票

0 回答

157 浏览

machine-learning - Python中的方差-通货膨胀因子

我正在尝试检测数据集中的多重共线性。我已经尝试了以下但收到错误

从 statsmodels.stats.outliers_influence 导入variance_inflation_factor

“Y”列是相关的，我将 No 映射到 0，将 Yes 映射到 1。数据集包含以下列：

nr.employee 已被删除，因为它包含 NaN 值。我是 Python/机器学习的新手。如果有人可以帮助我，那就太好了。我需要找到方差通货膨胀因素。

machine-learning prediction sklearn-pandas multicollinearity

2021-08-17T05:49:23.053

0 投票

0 回答

24 浏览

data-science - 应在缩放之前或之后检查变量的方差膨胀因子是否存在多重共线性？

我都试过了，&未缩放的值给出了更高的 VIF。这两个中哪一个是准确的——“缩放前”VIF 分数或“缩放后”VIF 分数？标准化对多重共线性有什么影响？

data-science data-preprocessing standardized multicollinearity

2021-09-14T10:59:52.977

0 投票

1 回答

39 浏览

r - 带有几个虚拟变量的回归

我正在运行逻辑回归，我想控制受访者所在的国家/地区。我有 12 个国家。我使用“fastDummy”包为每个国家/地区创建假人 ALL<-dummy_cols(ALL, select_columns = "country") 我得到如下信息： country_Japan 1 1 0 0 0 0 country_Taiwan 0 0 1 1 0 0 country_China 0 0 0 0 1 1
等等...正如你所看到的，所有变量的总和构成了完美的共线性。因此，我无法估计模型。我读到我需要包含一个带有 0 的变量作为最后一个国家虚拟变量以避免这种共线性。这个对吗？我包括了截距（带有 1 的列），但它没有帮助。我会很感激你的建议。谢谢

r regression logistic-regression dummy-variable multicollinearity

2021-10-09T10:42:18.897

0 投票

0 回答

19 浏览