我正在使用长格式的纵向调查,并且我正在尝试创建一个虚拟变量来判断一个人是否在 25 岁之前没有获得大学学位。我的数据看起来像这样:
ID CYRB VAR VALUE
1 1983 DEG98 1
1 1983 DEG00 1
1 1983 DEG02 1
1 1983 DEG04 0
2 1979 DEG08 0
2 1979 DEG00 0
2 1979 DEG02 1
2 1979 DEG04 1
3 1978 DEG98 NA
3 1978 DEG00 NA
3 1978 DEG02 NA
3 1978 DEG04 0
正如我试图说明的那样,相关年份的调查回复中缺少很多数据点。但很明显,如果受访者在以后的几年中回答“否”,则可以推断他们在 <25 岁时也没有学位。
尝试尽可能通用,我怎样才能创建一个新变量,它取决于一个人的所有变量值,即 ID = 1、2、3 等?
对不起,如果我不清楚!
编辑:
对不起,我的错,数据过去是宽格式,变量表示受访者是否在 1998 年、2000 年、2002 年等拥有大学学位(值表示响应 1 == TRUE,0 == FALSE),CYRB 是实际上是出生年份,为我想要的虚拟变量的预期输出编辑的表格将是:
ID CYRB VAR VALUE DUMMY
1 1983 DEG98 0 0
1 1983 DEG00 0 0
1 1983 DEG02 0 0
1 1983 DEG04 1 0
2 1979 DEG08 0 0
2 1979 DEG00 0 0
2 1979 DEG02 1 0
2 1979 DEG04 1 0
3 1978 DEG98 NA 1
3 1978 DEG00 NA 1
3 1978 DEG02 NA 1
3 1978 DEG04 0 1
即,如果受访者在 25 岁以后的任何调查中回答他/她没有大学学位,则虚拟变量取值为 1。
希望这更清楚一点。