r - 为什么这个“Tidymodels”网站示例的预测小于原始数据？是因为log10吗？

翻译自：https://stackoverflow.com/questions/70246414 2021-12-06T13:40:06.717

35 次

在此示例中，https://www.tidymodels.org/learn/models/parsnip-ranger-glmnet/，如果您查看data(ames)，原始数据集中列出了几个销售价格，例如215000, 105000, 172000。在随机森林示例中，他们的预测输出如下：

#> # A tibble: 5 x 2
#>   Sale_Price .pred
#>        <dbl> <dbl>
#> 1       5.33  5.22
#> 2       5.02  5.21
#> 3       5.27  5.25
#> 4       5.60  5.51
#> 5       5.28  5.24

和比你预期Sale_Price的.pred房子要小得多。

我以为是因为log10在

test_results <- 
  ames_test %>%
  select(Sale_Price) %>%
  mutate(Sale_Price = log10(Sale_Price)) %>%
  bind_cols(
    predict(rf_xy_fit, new_data = ames_test[, preds])
  )

但是当我尝试撤消 log10 以获得更实际的销售价格时，我认为这是通过求幂来完成的，它似乎并没有解决这个问题。例如，我对列或单个观察取幂exp(5.33)，得到的结果与数据中的原始s184.9342不相似。有人可以解释如何将其转换回原始数据等“常规”值，以及为什么会发生这种情况？谢谢！Sale_Priceames215000, 105000, 172000ames

r - 为什么这个“Tidymodels”网站示例的预测小于原始数据？是因为log10吗？

0 回答 0

Related

Reference