1

我正在寻找有关如何提高我的 r 脚本中长 if/else 循环的效率的建议。我还希望尽可能地对其进行未来验证,因为它的范围可能会随着时间而改变。

背景

使用另一种语言的遗留代码,我正在自动化一个大型项目的报告流程。在这个项目中,我有多个“中心”来创建基于数据库子集的报告。现在,我使用如下所示的长示例循环来完成此操作:

df$ReportName <- 0

df$new_centername[is.na(df$new_centername)] <- 0

for (i in 1:nrow(df)){
  if (df$new_centername[i] == 1){
    df$ReportName[i] <- "Center A"
  } else if (df$new_centername[i] == 2){
    df$ReportName[i] <- "Center B"
  } else if (df$new_centername[i] == 3){
    df$ReportName[i] <- "Center C"
  } else if (df$new_centername[i] == 4){
    df$ReportName[i] <- "Center D"
  } else if (df$new_centername[i] == 5){
    df$ReportName[i] <- "Center E"
  } else if (df$new_centername[i] == 6){
    df$ReportName[i] <- "Center F"
  } 
  ...

df是通用数据框,new_centername指定该行数据属于哪个Center,都是数字编码的。

随着时间的推移,我预计会有更多的中心加入其中。我假设有一种方法可以将这些中心存储在一个列表中,然后创建一个遍历列表的循环。这样,在添加新中心时,我只需将它们的名称添加到列表中。

编辑:

  • “中心__”只是在这里分享的一个占位符,实际中心名称差异很大。
  • 数字 id 也不遵循直线模式。

建议的解决方案:

SampleList <- list("Center A", "Center B", "Center C", ...)

for (i in 1:nrow(df)){
  for (j in 1:length(SampleList)){
    if (df$new_centername[i] == 1){
      df$ReportName[i] <- SampleList[j]
    }
  }
}

非常感谢帮助我围绕最佳逻辑和适当的语法进行优化!谢谢

4

1 回答 1

2

根据显示的代码,我们可以直接假设 'new_centername' 中的值是从 1 开始的序列,它可以用作填充其他值的索引。下面,我们正在创建一个字符串向量,paste0其中“Center A”将替换或获取“new_centername”为 1、“Center B”、2 等等的位置......只是为了展示这个概念,只创建了直到“中心 F”。

df$new_centername <- paste0("Center ", LETTERS[1:6])[df$new_centername]

由于 OP 提到替换值中没有模式并且索引也不同,那么有效的方法(也在@JasonAizkalns 的评论中建议)将是创建一个 key/val 数据集,然后与原始数据连接

keyval <- data.frame(key = c(5, 12, 13, 25), 
                     val = c('ASD', 'BDF', 'ANF', 'SDT'), stringsAsFactors = FALSE)
library(data.table)
setDT(df)[keyval, new_name := val, on = .(new_center_name = key)]
df
于 2019-02-08T14:50:23.237 回答