15

目标

我想使用 dplyr 在参数网格上运行模拟。具体来说,我想要一个可以在另一个程序中使用的函数

  • 获得一个 data.frame
  • 对于每一行,使用每一列作为参数计算一些模拟
  • 还传递了一些额外的数据(例如,初始条件)

这是我的方法

require(dplyr)
run <- function(data, fun, fixed_parameters, ...) {
   ## ....
   ## argument checking
   ##

   fixed_parameters <- as.environment(fixed_parameters)
   grouped_out <- do_(rowwise(data), ~ do.call(fun, c(., fixed_parameters, ...)))
   ungroup(grouped_out)
 }

这行得通。例如,对于

growth <- function(n, r, K, b) {
  # some dynamical simulation
  # this is an obviously-inefficient way to do this ;)
  n  + r - exp(n) / K - b - rnorm(1, 0, 0.1)
}
growth_runner <- function(r, K, b, ic, ...) {
  # a wrapper to run the simulation with some fixed values
  n0 = ic$N0
  T = ic$T
  reps = ic$reps
  data.frame(n_final = replicate(reps, {for(t in 1:T) {
                                          n0 <- growth(n0, r, K, b)
                                        };
                                        n0})
  )
}

我可以定义和运行,

   data <- expand.grid(b = seq(0.01, 0.5, length.out=10),
                       K = exp(seq(0.1, 5, length.out=10)),
                       r = seq(0.5, 3.5, length.out=10))
   initial_data = list(N0=0.9, T=5, reps=20)
   output <- run(data, growth_runner, initial_data)

问题

尽管这似乎可行,但我想知道是否有办法在没有do.call. (部分原因是do.call 的问题。)

我真的对grouped_out <- do_(rowwise(data), ~ do.call(fun, c(., fixed_parameters, ...)))用做同样事情但没有do.call. 编辑:以某种方式避免使用do.call上述链接中概述的性能损失的方法也可以。

注释和参考

  • 这个关于 do.call 和 dplyr中的标准评估的问题很有帮助,但我正在寻找一种方法来避免 do.call 如果可能
  • dplyr 的 nse vignette对写这篇文章很有帮助;让我觉得.values可以代替do.call
4

3 回答 3

5

我发现遵循您的代码有点棘手,但我认为这是等效的。

首先,我定义了一个执行您感兴趣的计算的函数:

growth_t <- function(n0, r, K, b, T) {
  n <- n0

  for (t in 1:T) {
    n <- n + r - exp(n) / K - b - rnorm(1, 0, 0.1)
  }
  n
}

然后我定义你想要改变的数据,包括代表的“虚拟”变量:

data <- expand.grid(
  b = seq(0.01, 0.5, length.out = 5),
  K = exp(seq(0.1, 5, length.out = 5)),
  r = seq(0.5, 3.5, length.out = 5),
  rep = 1:20
)

然后我可以把它喂进purrr::pmap_d(). pmap_d()做一个“并行”映射——即它以一个列表(或数据框)作为输入,并调用函数来改变每次迭代的所有命名参数。固定参数在函数名之后提供。

library(purrr)
data$output <- pmap_dbl(data[1:3], growth_t, n0 = 0.9, T = 5)

对我来说,这真的不像是一个 dplyr 问题,因为它实际上与数据操作无关。

于 2016-05-25T17:41:52.507 回答
1

下面避免使用do.call并以与 OP 相同的方式呈现输出。

首先,将函数的参数替换为您将传入的向量 - 这就是您将使用 apply 传递的内容。

growth_runner <- function(data.in, ic, ...) {
  # a wrapper to run the simulation with some fixed values
  n0 = ic$N0
  T = ic$T
  reps = ic$reps
  data.frame(n_final = replicate(reps, {for(t in 1:T) {
    n0 <- growth(n0, data.in[3], data.in[2], data.in[1])
  };
    n0})
  )
}

像以前一样设置要搜索的网格。

data <- expand.grid(b = seq(0.01, 0.5, length.out=10),
                    K = exp(seq(0.1, 5, length.out=10)),
                    r = seq(0.5, 3.5, length.out=10))
initial_data = list(N0=0.9, T=5, reps=20)

使用 apply 遍历您的网格,然后附加结果

output.mid = apply(data, 1, ic=initial_data, FUN=growth_runner)
output <- data.frame('n_final'=unlist(output.mid))

而且您无需任何调用do.call或任何外部库即可获得输出。

> dim(output)
[1] 20000     1
> head(output)
     n_final
1 -0.6375070
2 -0.7617193
3 -0.3266347
4 -0.7921655
5 -0.5874983
6 -0.4083613
于 2016-05-20T01:03:55.223 回答
0

您可以用以下内容替换该行do.call(感谢@shorpy指出purrr:invoke_rows()):

  grouped_out <- purrr::invoke_rows(fun, dplyr::rowwise(data), fixed_parameters)

没有任何其他更改,这将给出一个包含一列 data.frames 的数据框,例如

Source: local data frame [1,000 x 4]
            b        K     r                .out
        (dbl)    (dbl) (dbl)               (chr)
1  0.01000000 1.105171   0.5 <data.frame [20,1]>
2  0.06444444 1.105171   0.5 <data.frame [20,1]>
3  0.11888889 1.105171   0.5 <data.frame [20,1]>

要恢复更接近原始行为的内容,请将最后一行替换run

dplyr::ungroup(tidyr::unnest(grouped_out, .out))

这使

Source: local data frame [20,000 x 4]

       b        K     r    n_final
   (dbl)    (dbl) (dbl)      (dbl)
1   0.01 1.105171   0.5 -0.6745470
2   0.01 1.105171   0.5 -0.7500365
3   0.01 1.105171   0.5 -0.6568312

不需要对代码进行其他更改:)

于 2016-05-25T16:59:00.523 回答