在我给出的数据集中,自变量以 50 的间隔给出,如下所示。
因此,当我对线性回归的数据集执行训练测试拆分时,我获得了非常相似的训练集和测试集,如下所示:
我相信这具有相当于在测试集上进行训练的效果,这会产生误导性的结果。是不是说,测试集可能会获得很高的预测精度,但是我的模型将无法检测到过度拟合,因为过度拟合通常是通过训练集和测试集之间的较大差异来检测的?
此外,在我的建模中,相似的训练集和测试集会带来什么样的限制?
在我给出的数据集中,自变量以 50 的间隔给出,如下所示。
因此,当我对线性回归的数据集执行训练测试拆分时,我获得了非常相似的训练集和测试集,如下所示:
我相信这具有相当于在测试集上进行训练的效果,这会产生误导性的结果。是不是说,测试集可能会获得很高的预测精度,但是我的模型将无法检测到过度拟合,因为过度拟合通常是通过训练集和测试集之间的较大差异来检测的?
此外,在我的建模中,相似的训练集和测试集会带来什么样的限制?