我继承了一个记录不充分的人月数据集,它没有匹配的人级数据集。我想确定人月数据集中的哪些变量实际上是人级别的变量(对于具有特定 id 的所有观察值都是常数),例如您期望的出生日期。简单的例子:
id month dob race tx weight
1 1 4058 1 1 105
1 2 4058 1 1 107
1 3 4058 1 2 108
2 1 1622 2 1 153
2 2 1622 2 3 153
2 3 1622 2 2 153
在此示例中,出生日期和种族在个人中是固定的,但在个人中 tx 和体重会因月而异。
我想出了一个笨拙的解决方案:使用 proc 方法通过 id 计算所有数值变量的标准偏差,然后取这些标准偏差中的最大值。如果变量的 std 的最大值为 0,则该列在任何个体中都没有差异,我可以将该变量标记为固定(或个人级别)。
我觉得我错过了一个更简单的统计测试来确定我的数百个变量中的哪些变量在每个人中是固定的,哪些在个人的观察中有所不同。有什么建议么?
pT