找不到类似的问题,所以我们开始吧:我在 R 中有一个大型数据集,我想为危害分析做准备。因此,我想创建一个二分法生存变量。但是,我的危险事件有一个相对的解释,而不仅仅是某个值为 0。数据集的形式为:
ID y
1 0
1 15
1 30
1 29
1 10
2 11
2 64
2 86
2 79
2 75
加上一堆自变量和控制变量。ID 输入适合生存分析的子集,因为 y > 0。回到危险变量:我希望它取“1”,因为 y 的减小值低于阈值,即 y 达到的最大值的 75%关于 ID 组。因此,该危害必须满足两个条件:
- 值低于阈值(相对于它们的 ID)
- 值正在减少。因此,如果存在与上述类似的列,对于 ID 2 的前两个值,危险变量不应编码为“1”,因为这些值可能低于阈值但高于前一个值。
有人有解决方案吗?提前致谢?