问题标签 [panel-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2490 浏览

r - 如何对数据框中的所有行进行子集化以进行重复测量

我的问题的背景是:我有一个由重复测量组成的数据集,每行一个数据点。这些数据来自纵向研究,因此目前并非每个受试者都有所有数据点。

我希望能够提取符合标准的所有数据点,即所有重复测量或具有两个重复测量的数据点。

这是一个简化的示例:

这导致:

所以:

  • 受试者 0 和 1 有基线和两次重复测量,
  • 受试者 2 具有基线测量和一项重复测量,并且
  • 受试者 3 只有基线测量。

我希望能够有选择地为所有具有两个重复测量(或一个或只是基线)的受试者进行子集化,其中包含所有数据,即:

我可以对 where 进行子集 - 使用这个例子 - visit == 2。但是,对于那些具有第二次访问数据点的受试者,我看不到如何提取访问 0 和 1 的数据。从概念上讲,我可以看到我知道 subject.id 并且可以以某种方式使用此信息,但我不确定如何使用列表进行子集化。这里有潜在帮助的%in%运算符吗?

有什么想法吗?提前致谢。

0 投票
2 回答
1325 浏览

r - 如何按个人(最好使用插入符号库)对面板数据进行采样/分区?

我想对面板数据进行分区并保留数据的面板性质:

但是我想,在对数据进行分区或采样时,避免将同一个人(id)分成两个数据集。他们是一种从数据中随机采样/分区的方法,将个体分配给相应的分区而不是观察?

我尝试采样:

然而,这破坏了数据的面板性质......

0 投票
1 回答
414 浏览

r - 使用用户提供的协方差矩阵计算 F 统计量

请参阅下面的编辑

使用 package plm,我想知道为什么一旦我提供协方差矩阵(对于稳健的标准误差)显示的 F 统计量summary()不会改变。考虑下面的代码,我没有得到 F 统计数据的变化,如summery(). 但是,F 统计量由waldtest()变化计算得出:

考虑到这篇关于 Stata 稳健标准错误的帖子,并比较了 F 统计量的输出 w/ 和 w/o 稳健标准错误,我觉得 F 统计量应该改变。

这是 plm 1.4(然后是稳定版本)。

编辑pwaldtest在 CRAN 版本 1.6-4 中plm这样做并且现在被纳入summary.plm其中,只需运行以下之一将提供具有调整的 df2 参数的稳健 F 测试:

这是从业者稳健推理的一个很好的参考:Cameron/Miller,“集群稳健推理的从业者指南”,人力资源杂志,2015 年春季,第 50 卷,第 2 期,第 317-373 页。http://cameron.econ.ucdavis.edu/research/papers.html

0 投票
2 回答
962 浏览

r - R从组的开始和结束日期创建时间序列的最佳方法

我有一个数据集,每个组都有一个开始和结束日期。我想将这些数据转换为每个时间段(月)我对每个组进行一行观察的数据。

这是输入数据的示例,组由 id 标识:

我写了一个函数并将其向量化。该函数采用存储在每行中的三个参数并生成具有组标识符的时间序列。

我按如下方式运行该函数以获取数据框。我在输出中有超过 6M 行,所以它需要很长时间。我需要一个更快的方法。

前十行输出如下所示:

我将不胜感激一种更快的方法来做到这一点。我认为我过于关注某件事而错过了一个更简单的解决方案。

0 投票
1 回答
1514 浏览

r - R:在面板数据中插入和填充缺失的句点

我正在尝试从 Stata 学习 R,但遇到了以下两个问题,我似乎无法在 R 中找到优雅的解决方案:

1)我有一个面板数据集,我的时间变量中有间隙。尽管没有观察到这些行的数据,但我想扩展我的时间变量以包括间隙。

在 Stata 中,我通常会通过设置我的 ID 和时间变量来xtset解决这个问题,然后使用tsfill. R中是否有同样优雅的方式?

2) 我想用常量变量的数据填充一些新的空白单元格。

在 Stata 中,我将通过使用 -prefix 从以前的(相对于我的时间变量)观察中复制数据来做到这一点l.;例如使用replace Con = l.Con.

换句话说,我在问如何从这样的事情开始:

对于这样的事情:

希望这是有道理的。提前致谢。

0 投票
1 回答
298 浏览

r - 固定效应面板数据的张伯伦和安格里斯特纽维检验

我试图重现 Baltagi (2013) Econometric Analysis of Panel Data (5th edition), page 133 中表 7.1 的估计。另外,我想重现 Chamberlain (1982) 或其 Angrist-Newey (1991) 等价检验Baltagi, Bresson & Pirotte (2009)测试固定效应限制的工作文件?蒙特卡洛研究……因为 Baltagi 等人。说这在应用研究中并不常见,但检查固定效应模型的条件非常重要。(请在https://github.com/Joseperles/Statistical-questions/tree/master/Baltagi中找到数据、相关论文和带有估计的 R 脚本)

我已经成功地用 R 的plm包复制了所有的估计。但是我没有找到任何 R 包或任何 R 代码来复制这两个限制测试。在 Angrist-Newey 论文中,他们使用 SAS 的 3SLS 估计来执行他们的测试。

我已经看到 R 包systemfit执行 3SLS,但估计面板数据模型似乎没有用。

那么,有人知道任何包或有任何代码来执行这些不寻常的测试吗?

0 投票
0 回答
1978 浏览

r - “第二步矩阵是奇异的,使用一般逆”

我尝试使用 plm 包进行 gmm 建模。我想使用 Bundell Blond 估计器,并且总是遇到同样的两个警告:

警告信息:

这是我的数据:

这里是我的代码:

我在网上找到了 plm 包的代码,第 373 到 407 行是我的错误出现的地方。(因为这两个警告的代码相同,所以我在这里只添加了一个):

可悲的是我不明白,有人可以帮助我了解问题所在以及我如何继续消除此警告吗?

0 投票
0 回答
31 浏览

r - 使用 R 中的 plm 包在 gmm 方法中属于一起的几个 id 的组集群

我已经用 Blundell Bond 估计器建立了一个 gmm 模型,现在我想将我的个人分组。我的数据集中已经有一个变量(例如值 1-4)。目的是捕捉这些集群未观察到的异质性。

  1. 是否可以使用 pgmm 函数对数据进行聚类?
  2. 如何在我的代码函数中添加集群?

这是我的数据:

这是我的代码:

0 投票
1 回答
1420 浏览

r - R - posix 格式的 plm 随时间回归

我对 R 中的面板数据几乎没有经验,并且正在尝试使用 plm-package 运行简单的面板回归。但是,将我的数据帧转换为 pdata.frame 时,我的时间索引变量将转换为因子变量。这意味着,如果我想将因变量作为时间的函数进行回归,则回归会生成一长串时间的虚拟变量,并为每个变量计算单独的系数。我只想要每个时间单位的平均效果(即平均每月增加/减少点)。

示例数据框:

假设示例数据帧结构是 ID = int,Date = POSIXct,Points = int。然后我将其转换为带有索引 ID 和日期的 pdata.frame:

并运行 plm 固定效应回归:

然后将得到的系数按每个月细分为虚拟变量。我想将我的时间变量视为一个连续变量,所以我只得到一个日期系数。我怎样才能做到这一点?有没有办法避免将时间索引变量格式化为面板数据框中的一个因素?

0 投票
1 回答
1544 浏览

r - 来自 plm 的 pdwtest 对于面板模型和池化 OLS(Durbin Watson 自相关测试)的 p 值(和统计量?)错误?

我想知道为什么与' 和' 的 Durbin Watson 测试(分别为和)pdwtest()相比,输出的 p 值非常不同。请在下面找到有关差异的文档。之后,我提供了我从 plm 的源代码中获取的代码,并试图解决这个问题。有人可以看看吗?p 值仍然不匹配,但非常接近。我怀疑,这是由于数字精度?另外,我不完全确定随机效应模型的 p 值,但这是一个统计问题,而不是编程问题(将截距留给测试?)。lmtestcardwtest()dwt()pdwtest()

编辑 2019-01-04:Bhargava 等人的广义 Durbin-Watson 统计量。(1982) 和 Baltagi/Wu 的 LBI 统计现在在 plm 的最新版本 (1.7-0) 中实现为pbnftest().

我认为,我们必须区分这里发生的事情:

1) p 值:p 值似乎是关闭的,因为附加截距被传递给 lmtest::dwtest()。我的猜测是,这反过来会导致对自由度的错误计算,从而导致可疑的 p 值。

请参阅下面提到的论文和http://www.stata.com/manuals14/xtxtregar.pdf

Bhargava, Franzini, Narendranathan,序列相关和固定效应模型,经济研究评论(1982 年),XLIX,第 533-549 页

Baltagi、BH 和 PX Wu。1999. 带有 AR(1) 干扰的不等间距面板数据回归。计量经济学理论 15,第 814-823 页。

版本:R 3.1.3 plm_1.4-0 lmtest_0.9-34