r - 使用 ddply 分配组 ID

Question

来自 R 新手的非常基本的性能问题。我想通过字段的唯一组合为数据框中的每一行分配一个组 ID。这是我目前的方法：

> # An example data frame
> df <- data.frame(name=c("Anne", "Bob", "Chris", "Dan", "Erin"), 
                   st.num=c("101", "102", "105", "102", "150"), 
                   st.name=c("Main", "Elm", "Park", "Elm", "Main"))
> df
   name st.num st.name
1  Anne    101    Main
2   Bob    102     Elm
3 Chris    105    Park
4   Dan    102     Elm
5  Erin    150    Main
> 
> # A function to generate a random string
> getString <- function(size=10) return(paste(sample(c(0:9, LETTERS, letters), size, replace=TRUE), collapse=''))
>
> # Assign a random string for each unique street number + street name combination
> df <- ddply(df, 
              c("st.num", "st.name"), 
              function(x) transform(x, household=getString()))
> df
   name st.num st.name  household
1  Anne    101    Main 1EZWm4BQel
2   Bob    102     Elm xNaeuo50NS
3   Dan    102     Elm xNaeuo50NS
4 Chris    105    Park Ju1NZfWlva
5  Erin    150    Main G2gKAMZ1cU

虽然这适用于行数相对较少或组数较少的数据帧，但我遇到了具有许多唯一组的较大数据集（> 100,000 行）的性能问题。

有什么建议可以提高这项任务的速度吗？可能与 plyr 的实验性 idata.frame() 一起使用？还是我对这一切都错了？

在此先感谢您的帮助。

score 14 · Accepted Answer

尝试使用该id功能（也在 plyr 中）：

df$id <- id(df[c("st.num", "st.name")], drop = TRUE)

更新：

id自 dplyr 版本 0.5.0 以来，该功能被认为已弃用。该函数group_indices提供相同的功能。

score 2 · Accepted Answer

ID是否必须是随机的10个字符串？如果没有，为什么不将数据框的列粘贴在一起。如果 ID 的字符长度必须相同，请将因子转换为数字，然后将它们粘贴在一起：

df$ID <- paste(as.numeric(df$st.num), as.numeric(df$st.name), sep = "")

然后，如果你真的需要 10 个字符 ID，我将只生成 n 个 ID，并用它们重命名 ID 的级别

df$ID <- as.factor(df$ID)
n <- nlevels(df$ID)

getID <- function(n, size=10){
  out <- {}
  for(i in 1:n){
    out <- c(paste(sample(c(0:9, LETTERS, letters), size, replace=TRUE), collapse=''))
  }
  return(out)
}

newLevels <- getID(n = n)

levels(df$ID) <- newLevels

另外，顺便说一句，您不需要以function(x)ddply 的方式与transform(). 这段代码的工作原理是一样的：

ddply(df, c("st.num", "st.name"), transform, household=getString())

r - 使用 ddply 分配组 ID

2 回答 2

Related

Reference