我有一个训练数据train
,其中distance
和dest_zip_code
作为预测变量来预测delivery_days
。我正在使用ranger
RF 模型创建“分位数 RF 回归”模型对象。请注意,dest_zip_code
training_data 中的级别基于 6 个月。
现在,我有两个相同的测试集test_A
和test_B
test_A
从dest_zip_code
过去 2 个月开始,水平也基于过去 2 个月。test_B
从dest_zip_code
过去 2 个月开始,但级别被重构为持续 6 个月(与火车数据相同的级别)
当我predict
在具有相同训练模型对象的两个测试集上使用该函数时,至少有一半的预测是不同的。
- 有人可以帮助我了解具有相同观察结果的测试数据的不同分解级别如何影响预测吗?
- 哪一个在理论上是正确的?