我有一个长格式的纵向数据集,其中(除其他外)变量:ID、wave、当前工作、慢性病的发生和自评健康:
ID wave working Chronic SRH
451101001003 1997 1 0 0
451101020002 1997 1 0 1
451102068003 2000 1 0 1
451103041001 1997 1 0 1
451102004001 1997 0 0 0
451203011001 2004 0 0 0
421103003031 2009 1 0 0
211102009021 2000 1 1 0
对于每个参与者来说,观察的数量是不相等的,因为有些人退出了,而其他人则加入了后来的浪潮。当我正在研究工作条件对健康的影响时,我想从数据集中删除从未工作过的参与者,但保留那些(可能)因健康原因停止工作的参与者。换句话说,工作 = 0,慢性或 SRH = 1 的参与者。
希望这是有道理的。