在此示例中,https://www.tidymodels.org/learn/models/parsnip-ranger-glmnet/,如果您查看data(ames)
,原始数据集中列出了几个销售价格,例如215000, 105000, 172000
。在随机森林示例中,他们的预测输出如下:
#> # A tibble: 5 x 2
#> Sale_Price .pred
#> <dbl> <dbl>
#> 1 5.33 5.22
#> 2 5.02 5.21
#> 3 5.27 5.25
#> 4 5.60 5.51
#> 5 5.28 5.24
和比你预期Sale_Price
的.pred
房子要小得多。
我以为是因为log10
在
test_results <-
ames_test %>%
select(Sale_Price) %>%
mutate(Sale_Price = log10(Sale_Price)) %>%
bind_cols(
predict(rf_xy_fit, new_data = ames_test[, preds])
)
但是当我尝试撤消 log10 以获得更实际的销售价格时,我认为这是通过求幂来完成的,它似乎并没有解决这个问题。例如,我对列或单个观察取幂exp(5.33)
,得到的结果与数据中的原始s184.9342
不相似。有人可以解释如何将其转换回原始数据等“常规”值,以及为什么会发生这种情况?谢谢!Sale_Price
ames
215000, 105000, 172000
ames