r - 当列表项失败或花费太长时间时，如何使 lapply 超时？

Question

对于我目前参与的几项工作，我正在通过一系列函数运行具有大量参数组合的大型数据集。这些函数有一个包装器（所以我可以mclapply），以便在集群上进行操作。但是，我遇到了两个主要挑战。

a) 我的参数组合很大（想想 20k 到 100k）。有时特定的组合会失败（例如，生存率太高而死亡率太低，因此模型永远不会收敛为假设情景）。我很难提前确定哪些组合会失败（如果我能做到这一点，生活会更轻松）。但现在我有这种类型的设置：

failsafe <- failwith(NULL, my_wrapper_function)
# This is what I run
# Note that input_variables contains a list of variables in each list item
results <-  mclapply(input_variables, failsafe, mc.cores = 72)
# On my local dual core mac, I can't do this so the equivalent would be:
results <-  llply(input_variables, failsafe,  .progress = 'text')

我的包装函数的骨架如下所示：

my_wrapper_function <- function(tlist) {
    run <- tryCatch(my_model(tlist$a, tlist$b, tlist$sA, tlist$Fec, m = NULL) , error=function(e) NULL)
...
return(run)
}

这是最有效的方法吗？如果由于某种原因变量的特定组合使模型崩溃，我需要它返回 aNULL并继续其余的。但是，我仍然有这样的问题，即它失败得不够优雅。

b) 有时某些输入组合不会使模型崩溃，但需要很长时间才能收敛。我对集群上的计算时间设置了限制（比如 6 小时），所以我不会将资源浪费在卡住的东西上。如何包含超时，以便如果函数调用在单个列表项上花费的时间超过 x 时间，它应该继续？计算花费的时间是微不足道的，但不能中断模拟中间的函数来检查时间，对吧？

任何想法，解决方案或技巧都值得赞赏！

score 13 · Accepted Answer

您很可能能够使用包的组合tryCatch()和evalWithTimeout()来自R.utils包的组合来管理优雅退出。另请参阅这篇文章，它提供了类似的代码并更详细地对其进行了解包。

require(R.utils)

myFun <- function(x) {Sys.sleep(x); x^2}

## evalWithTimeout() times out evaluation after 3.1 seconds, and then
## tryCatch() handles the resulting error (of class "TimeoutException") with 
## grace and aplomb.
myWrapperFunction <- function(i) {
    tryCatch(expr = evalWithTimeout(myFun(i), timeout = 3.1), 
             TimeoutException = function(ex) "TimedOut")
}

sapply(1:5, myWrapperFunction)
# [1] "1"        "4"        "9"        "TimedOut" "TimedOut"

r - 当列表项失败或花费太长时间时，如何使 lapply 超时？

1 回答 1

Related

Reference