0

假设我们仅限于使用 SAS 并且有一个面板/纵向数据集。我们有队列和时间指标,以及一些测量变量y

data in;
input cohort time y;
datalines;
1   1  100 
1   2  101  
1   3  102 
1   4  103
1   5  104
1   6  105 
2   2   .  
2   3   .  
2   4   .  
2   5   .
2   6   .
3   3   .
3   4   .
3   5   .
3   6   .
4   4  108
4   5  110
4   6  112
run;

请注意,群组和时间的单位是相同的,因此如果数据集到达时间单位 6,则每个连续的面板单元将比它之前的时间短一个周期。

实际数据之间存在两个面板单位的差距。目标是从“夹心”它们的两个中线性插入两个缺失的面板单元(队列 2 和 3 的值)。对于时间 5 的群组 2,内插值应该是0.67*104 + 0.33*110,而对于时间 5 的群组 3,它应该是0.33*104 + 0.67*110。基本上,您只需为更近的面板单元加上实际值的 2/3 重量,为更远的面板单元重量 1/3。您当然会有缺失值,但对于这个玩具示例来说,这不是问题。

我想象解决方案涉及滞后和使用first.运算符和循环,但我的 SAS 太差了,我什至不愿提供我损坏的代码示例。

4

1 回答 1

0

我有一个解决方案,但是它受到了折磨。必须有更好的方法来做到这一点,这在Stata中需要一条线。

首先,我们使用proc SQL两个填充面板单元制作一个表格,即“三明治面包”

proc sql; 
create table haveY as
select time, cohort, y
from startingData 
where y is not missing
order by time, cohort;

quit;

接下来我们遍历这个缩减数据集的行来产生插值,这里的操作我没有完全按照,我修改了我找到的一个相关的例子。

data wantY;
set haveY(rename=(y=thisY cohort=thisCohort));
by time;

retain lastCohort lastY;
lastcohort = lag(thisCohort);
lastY = lag(thisY);
if not first.time then do;
  do cohort = lastCohort +1 to thisCohort-1;
    y = ((thisCohort-cohort)*lastY + (cohort-lastCohort)*thisY)/(thisCohort-lastCohort);
    output;
    end;
end;
cohort=thisCohort;
y=thisY;
drop this: last:;
run;

proc sort data=work.wantY;
by cohort time;
run;

这确实产生了需要的东西,它可以加入proc sql到起始表中:startingData. 由于冗长,这不是一个完全令人满意的解决方案,但它确实有效。

于 2017-11-18T20:22:19.407 回答