3

背景

包可以包含很多功能。其中一些需要提供信息丰富的错误消息,并且可能需要函数中的一些注释来解释发生了什么/为什么发生。f1假设f1.R文件中的示例。所有文档和评论(错误的原因和条件的原因)都集中在一个地方。

f1 <- function(x){
  if(!is.character(x)) stop("Only characters suported")
  # user input ...
  # .... NaN problem in g()
  # .... 
  # ratio of magnitude negative integer i base ^ i is positive
  if(x < .Machine$longdouble.min.exp / .Machine$longdouble.min.exp) stop("oof, an error")
  log(x)
}

f1(-1)
# >Error in f1(-1) : oof, an error

例如,我创建一个单独的conds.R,指定一个函数(和w警告、s建议)等。

e <- function(x){
  switch(
    as.character(x),
    "1" = "Only character supported",
    # user input ...
    # .... NaN problem in g()
    # .... 
    "2" = "oof, and error") |>
    stop()
}

然后在f.R脚本中,我可以定义f2

f2 <- function(x){
  if(!is.character(x)) e(1)
  # ratio of magnitude negative integer i base ^ i is positive
  if(x < .Machine$longdouble.min.exp / .Machine$longdouble.min.exp) e(2)
  log(x)
}

f2(-1)
#> Error in e(2) : oof, and error

确实会引发错误,并且在它之上有一个很好的回溯并在控制台中使用调试选项重新运行。此外,作为包维护者,我更喜欢这样做,因为它避免考虑编写简洁的 if 语句 + 1 行错误消息或在tryCatch语句中对齐注释。

问题

是否有理由(不是对语法的看法)避免conds.R在包中编写 a ?

4

1 回答 1

1

没有理由避免写作conds.R。这在包开发中是非常常见和良好的做法,特别是因为您想要执行的许多检查将适用于许多函数(例如断言输入是字符,正如您在上面所做的那样。这是来自dplyr.

library(dplyr)

df <- data.frame(x = 1:3, x = c("a", "b", "c"), y = 4:6)
names(df) <- c("x", "x", "y")
df
#>   x x y
#> 1 1 a 4
#> 2 2 b 5
#> 3 3 c 6

df2 <- data.frame(x = 2:4, z = 7:9)

full_join(df, df2, by = "x")
#> Error: Input columns in `x` must be unique.
#> x Problem with `x`.

nest_join(df, df2, by = "x")
#> Error: Input columns in `x` must be unique.
#> x Problem with `x`.

traceback()
#> 7: stop(fallback)
#> 6: signal_abort(cnd)
#> 5: abort(c(glue("Input columns in `{input}` must be unique."), x = glue("Problem with {err_vars(vars[dup])}.")))
#> 4: check_duplicate_vars(x_names, "x")
#> 3: join_cols(tbl_vars(x), tbl_vars(y), by = by, suffix = c("", ""), keep = keep)
#> 2: nest_join.data.frame(df, df2, by = "x")
#> 1: nest_join(df, df2, by = "x")

在这里,这两个函数都依赖于用join-cols.R编写的代码。两者都调用join_cols()后者又调用check_duplicate_vars(),我从以下位置复制了源代码:

check_duplicate_vars <- function(vars, input, error_call = caller_env()) {
  dup <- duplicated(vars)
  if (any(dup)) {
    bullets <- c(
      glue("Input columns in `{input}` must be unique."),
      x = glue("Problem with {err_vars(vars[dup])}.")
    )
    abort(bullets, call = error_call)
  }
}

尽管语法与您编写的内容不同,但它旨在提供相同的行为,并表明可以将其包含在一个包中,并且没有理由(根据我的理解)不这样做。但是,我会根据您上面的代码添加一些语法点:

  • 我会将包内的 check (if()语句) 与错误提示捆绑在一起,以减少在您使用该功能的其他区域重复自己。
  • 包含传入的变量或参数的名称通常更好,因此错误消息是明确的,dplyr例如上面的示例。这使用户更清楚错误是什么导致了问题,在这种情况下,该x列在df.
  • 您的示例中显示的回溯#> Error in e(2) : oof, and error对用户来说更加模糊,尤其e()是可能未在 NAMESPACE 中导出,他们需要解析源代码以了解错误的生成位置。如果您使用stop(..., .call = FALSE) 或通过嵌套函数传递调用环境,例如在join-cols.R中,那么您可以避免在traceback(). 例如,在 Hadley 的Advanced R中建议这样做:

默认情况下,错误消息包括调用,但这通常没有用(并且概括了您可以轻松获得的信息traceback()),所以我认为使用它是一个好习惯call. = FALSE

于 2021-11-23T10:56:18.473 回答