0

我是数据科学的新手,想寻求模型选择的帮助。

我已经建立了 8 个模型来预测 Salary vs year exp、职位名称和位置。然后,我尝试通过 RMSE 比较 8 个模型。但最后,我不确定我应该选择哪种型号。(记住,我更喜欢模型 8,因为经过随机森林测试,结果优于回归,然后我使用所有数据集制作最终版本,但解释 coef 比回归更难)你能帮忙哪个模型你更喜欢,为什么?在现实中,数据科学家是这样做的,还是他们有自动处理的方法?

1 RMSElm1:模型:线性回归,数据:训练 80%,测试 20% 无任何插补 = 22067.58

2 RMSElm2:模型:线性回归,数据:训练 80%,测试 20%:插补一些我认为他们给出相同工资概念的位置 = 22115.64

3 RMSElm3:模型:线性回归+逐步,数据:训练 80%,测试 20% 无任何插补 = 22081.06

4 RMSEdeep1:模型:深度学习(H2O 包激活 = 'Rectifier',隐藏 c(5,5),epochs = 100,),数据:训练 80%,测试 20%:无任何插补 = 16265.13

5 RMSErf1:模型:随机森林(ntree = 10),数据:训练 80%,测试 20% 无任何插补 = 14669.92

6 RMSErf2:模型:随机森林(ntree = 500),数据:训练 80%,测试 20% 无任何插补 [1] 14669.92

7 RMSErf3:模型:随机森林(ntree = 10,)数据:K-Fold 10 无任何插补 [1] 14440.82

8 RMSErf4 模型:随机森林(ntree =10),数据:所有数据集 无任何插补 [1] 13532.74

4

1 回答 1

1

在回归问题中,msermse是一种确定模型执行情况的方法。低 rmse 或 mse 是首选。因此,请使用给出最低 mse 或 rmse 值的模型,并在测试数据上进行尝试。集成方法通常给出最好的结果。XGBoost 常用于比赛中。

可能存在过度拟合的情况,您可能会在训练数据中获得非常低的 rmse,但在测试数据中获得高 rmse。因此,使用交叉验证被认为是一种很好的做法。

您可能想检查一下:https ://stats.stackexchange.com/questions/56302/what-are-good-rmse-values

于 2018-10-20T06:26:06.630 回答