我有一个不平衡的大型数据集,其中每个观察都可以采用多个字符串值,每个值都存储在一个单独的变量中:
obs year var1 var2 var3 newval
1 1990 str1 str2 str3 3
1 1991 str1 str4 str5 2
2 1990 str3 str4 2
2 1991 str4 str5 1
2 1993 str3 str5 0
2 1994 str7 1
在每个时间点和每次观察,我都需要计算字符串值是否是“新的”。这意味着它们没有出现在前几年的观察值中。
我应该如何在Stata中解决这个问题?
谢谢你。