我正在使用 gstat 包进行普通克里金法并使用 walker Lake 数据(数据大小 = 470)。我在每次试验中从该数据中随机抽取 20 个,并计算从 50-450 个数据集中随机选择的训练数据集的 rmse。然后我计算了每个数据集的平均值。结果如下——
trial Index training points avg. rmse
--------------------------------------------------------
1 50 43.5936
2 100 40.3413
3 150 34.8842
4 200 28.1230
5 250 28.3111
6 300 30.9915
7 350 30.8903
8 400 28.3148
9 450 28.9578
我的问题是:
1) 为什么 RMSE 是波浪形的。为什么在增加训练数据的同时它并不总是减少?
2)这是否意味着,我们不需要用于克里金的大型数据集,因为当训练数据集为 200 时,RMSE 最低。
等待回复。