背景:我正在创建一个方法来清理和转换将由多个模型使用的时间序列数据。配方中的步骤之一是使用该step_corr()
函数删除相关的预测变量。
但是,由于数据集的性质,在使用滚动窗口进行交叉验证时,某些变量对于整个训练数据集可能具有恒定值,从而导致step_corr()
函数抛出警告。
问题陈述:在这种情况下,是否可以从相关步骤中排除这些变量?或者也许完全删除变量?
PS我知道我可以很容易地忽略警告并继续。但我正在寻找一种更清洁的方法/最佳实践建议。
背景:我正在创建一个方法来清理和转换将由多个模型使用的时间序列数据。配方中的步骤之一是使用该step_corr()
函数删除相关的预测变量。
但是,由于数据集的性质,在使用滚动窗口进行交叉验证时,某些变量对于整个训练数据集可能具有恒定值,从而导致step_corr()
函数抛出警告。
问题陈述:在这种情况下,是否可以从相关步骤中排除这些变量?或者也许完全删除变量?
PS我知道我可以很容易地忽略警告并继续。但我正在寻找一种更清洁的方法/最佳实践建议。
有两个步骤供您考虑:
step_zv()
将删除所有具有相同值的变量(零方差)step_nzv()
将删除几乎所有具有相同值的变量(高度稀疏和不平衡)