r - 使用数据框名称作为模型表中的列

Question

我很困惑为什么以下不起作用。我正在尝试将数据框/tibble 的名称用作多模型数据框中的列，但不断遇到以下错误。这是一个例子：

library(tidyverse)
library(rlang)

set.seed(666)
df1 <- tibble(
  x = 1:10 + rnorm(10),
  y = seq(20, 38, by=2) + rnorm(10),
  z = 2*x + 3*y
)

df2 <- tibble(
  x = 1:10 + rnorm(10),
  y = seq(20, 38, by=2) + rnorm(10),
  z = 4*x + 5*y
)

results <- tibble(dataset = c('df1','df2'))

请注意，以下所有工作：

lm(z ~ x + y, data=df1)
lm(z ~ x + y, data=df2)
lm(z ~ x + y, data=eval(sym('df1')))

但是当我尝试以下操作时：

results <- results %>% mutate(model = lm(z ~ x + y, data = eval(sym(dataset))))

我得到错误

Error in mutate_impl(.data, dots) : 
  Evaluation error: Only strings can be converted to symbols.

有人可以弄清楚如何进行这项工作吗？

score 2 · Accepted Answer

我们可以使用map函数并指定lm函数如下。

library(tidyverse)
library(rlang)

results2 <- results %>% 
  mutate(model = map(dataset, ~lm(z ~ x + y, data = eval(sym(.)))))

results2
# # A tibble: 2 x 2
#   dataset model   
#   <chr>   <list>  
# 1 df1     <S3: lm>
# 2 df2     <S3: lm>

results2$model[[1]]
# Call:
#   lm(formula = z ~ x + y, data = eval(sym(.)))
# 
# Coefficients:
# (Intercept)            x            y  
#   6.741e-14    2.000e+00    3.000e+00

results2$model[[2]]
# Call:
#   lm(formula = z ~ x + y, data = eval(sym(.)))
# 
# Coefficients:
# (Intercept)            x            y  
#   9.662e-14    4.000e+00    5.000e+00

score 1 · Accepted Answer

我建议您绑定所有数据并跳过evalandsym调用的稍微不同的路线。这遵循 R for Data Science 的“许多模型”一章。

purrr::lst创建一个数据框列表，其中这些变量的名称作为列表的名称，.id参数 tobind_rows使用这些名称创建一个将数据标记为来自df1or的列df2。嵌套创建一个列data，该列是数据框的列表列。然后您可以构建每个数据集的模型。我使用波浪号快捷符号来构建匿名函数。

结果：您有一列model是模型列表。

library(tidyverse)
library(rlang)

results <- lst(df1, df2) %>%
  bind_rows(.id = "dataset") %>%
  group_by(dataset) %>%
  nest() %>%
  mutate(model = map(data, ~lm(z ~ x + y, data = .)))

results$model[[1]]
#> 
#> Call:
#> lm(formula = z ~ x + y, data = .)
#> 
#> Coefficients:
#> (Intercept)            x            y  
#>   6.741e-14    2.000e+00    3.000e+00

您还有一列嵌套数据。如果你不想要它，你可以放弃它：

select(results, -data)
#> # A tibble: 2 x 2
#>   dataset model 
#>   <chr>   <list>
#> 1 df1     <lm>  
#> 2 df2     <lm>

r - 使用数据框名称作为模型表中的列

2 回答 2

Related

Reference