我目前正在使用插入符号在 R 中结合机器学习和因果推理的项目。我的数据集包含一个变量,它将观察结果分配到某些组中。在训练 ML 模型和预测时,我想通过删除特定组的每个变量的平均值来模仿固定效应估计器的行为。
例如,我的数据可能如下所示:
DT <- data.table(a = seq(1, 100),
b = seq(101, 200),
c = seq(201, 300),
group = rep(seq(1,10), 10))
我知道我可以在 train() 函数中使用插入符号的内置“中心”方法进行预处理。但是,我需要应用此预处理步骤,而不是针对完整的数据集,而是分别针对“组”变量的每个级别。
是否有一种简单的方法来实现这种行为,即在训练集上计算分组均值,并在使用插入符号对单独的测试集进行预测时使用这些相同的方法来应用居中预处理?
任何帮助将不胜感激,谢谢。