3

这是一个典型的数据框:

df <- data.frame(
  'ID' = c("123A","456B","789C","1011","1213")
  , 'Name' = c("Alice","Bobo","Jack","Jill","Zoro")
  , 'Quizzes' = c(13,8,14,NA,15)
  , 'Midterm' = c(13,4,16,7,12)
  , 'Final' = c(15,9,13,6,13)
)
df
    ID  Name Quizzes Midterm Final
1 123A Alice      13      13    15
2 456B  Bobo       8       4     9
3 789C  Jack      14      16    13
4 1011  Jill      NA       7     6
5 1213  Zoro      15      12    13

我想添加数字列(不包括'ID'and 'Name')来计算'Grade'列。然后我想计算每个数字列的平均值、中值、最大值、最小值和标准差。最后,我想将统计数据合并到原始数据框中。

一个问题是列名(在此示例中为ID, Name, Quizzes, Midterm, Final)是未知的。列数也是未知的,它可能有 2 个标识列(IDName本例中为 , )或更多,并且可能有 3 个等级组件(在本例中为 , Quizzes)或更多。MidtermFinal

但是,我知道第一列总是包含一个唯一标识符。

可能缺少数据和/或 NA 数据。

按列添加(水平添加)时,我想假设缺失和 NA 被视为零。按行添加(或计算任何其他统计数据)(垂直添加)时,我想忽略缺失值和 NA 值(将它们视为异常值)。

我的困难分为两类:1)处理 NA 和缺失值,2)当 colnames 未知时合并数据帧。

df$Means  = rowMeans(df[sapply(df, is.numeric)])
df
    ID  Name Quizzes Midterm Final    Means
1 123A Alice      13      13    15 13.66667
2 456B  Bobo       8       4     9  7.00000
3 789C  Jack      14      16    13 14.33333
4 1011  Jill      NA       7     6       NA
5 1213  Zoro      15      12    13 13.33333

我知道如何删除 NA:

df$Means  = rowMeans(df[sapply(df, is.numeric)], na.rm = TRUE)
df
    ID  Name Quizzes Midterm Final    Means
1 123A Alice      13      13    15 13.66667
2 456B  Bobo       8       4     9  7.00000
3 789C  Jack      14      16    13 14.33333
4 1011  Jill      NA       7     6  6.50000
5 1213  Zoro      15      12    13 13.33333

但我想将它们视为零。

第一个问题:是否有一种单行方法可以在不改变数据帧的情况下将 NA 视为零 (0)?

编辑 1:让我澄清一下,我知道如何在数据帧中用 0 替换 NA df[is.na(df)] <-0,但我希望保持原始数据帧的数据不变,保持 NA,而计算意味着将 NA 视为零。

一点解释: sapply(df, is.numeric)旨在忽略前两列,我不知道它们的列名。

我还想将统计信息合并到原始数据框中,以方便显示和导出到工作表。我走了一部分路,但不是很远。我尝试调整此处描述的解决方案将新行添加到数据框中,在特定的行索引处,未附加?

# create a dataframe of sums
data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))
    ID Quizzes Midterm Final
1 Mean    12.5    10.4  11.2

# add sums to original data frame
newRow <- data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))

insertRow <- function(df, r, p) {
  # df = data frame
  # r  = new row
  # p  = position
  df[seq(p+1,nrow(df)+1),] <- df[seq(p,nrow(df)),]
  df[p,] <- r
  df
} 

insertRow(df[,-1],newRow,nrow(df)+1)

    Name Quizzes Midterm Final
1  Alice    13.0    13.0  15.0
2   Bobo     8.0     4.0   9.0
3   Jack    14.0    16.0  13.0
4   Jill      NA     7.0   6.0
5   Zoro    15.0    12.0  13.0
NA  <NA>    12.5    10.4  11.2
7   <NA>      NA      NA    NA
Warning message:
In `[<-.factor`(`*tmp*`, iseq, value = 1L) :
  invalid factor level, NA generated

第二个问题: 如何有效地将我的垂直总和(以及平均值和中位数等)合并回原始数据框中?回想一下,我不知道 colnames,我只知道第一列是唯一标识符。编辑:下面描述了一个解决方案。

编辑 2:我避免使用 rbind 因为我正在寻找一个有效的解决方案。url在特定的行索引处向数据框添加新行,未附加?声明“这是一个避免(通常很慢) rbind 调用的解决方案。” 我不知道为什么 rbind 可能会很慢,但是我按照建议尝试实施针对我当前问题的解决方案。

谢谢!如果需要,请务必要求澄清。

编辑3:

我上面引用的线程,在特定行索引处向数据框添加新行,未附加?,实际上有一个“有效”的解决方案,可以避免上面使用 insertRow 函数描述的奇怪行为(我赶紧补充说,奇怪的行为很可能是我滥用函数的结果)。这是一个有效并解决了我的第二个问题的函数:

insertRow2 <- function(df, r, p) {
  df <- rbind(df,r)
  df <- df[order(c(1:(nrow(df)-1),p-0.5)),]
  row.names(df) <- 1:nrow(df)
  return(df)  
}

insertRow2(df[,-1],newRow,nrow(df)+1)

   Name Quizzes Midterm Final
1 Alice    13.0    13.0  15.0
2  Bobo     8.0     4.0   9.0
3  Jack    14.0    16.0  13.0
4  Jill      NA     7.0   6.0
5  Zoro    15.0    12.0  13.0
6  Mean    12.5    10.4  11.2

至于我的第一个问题,由于没有单线即将推出,我创建了这样的自定义函数:

colMeanz <- function(df) {
    df[is.na(df)] <- 0
    return(colMeans(df))
}

相当不雅,但你去。感谢 Llopis 提供的帮助。

上下文的额外解释:在计算一个学生的平均值时,将 NA 视为零是有意义的,而在计算整个班级的平均值时,将 NA 视为 'na.rm=TRUE' 是有意义的。

4

1 回答 1

1

假设没有名字我这样做是为了测试它

names(df)<- NULL

第一个问题:要将数据的 de NA 值更改为 0,您可以执行 df[is.na(df)]<-0 (有更多解决方案,但可以这样做,只需在 stackflow 中搜索)

df[is.na(df)] <- 0
#    NA    NA NA NA NA
#1 123A Alice 13 13 15
#2 456B  Bobo  8  4  9
#3 789C  Jack 14 16 13
#4 1011  Jill  0  7  6
#5 1213  Zoro 15 12 13

第二个问题:您可以cbind将新数据加入最后一列并cbind在 df 末尾加入新行。作为一个例子,这个数据是近似的平均值。我不确定您是否需要注意rbind函数使用的时间,如果它只有不到 100 行,那就很好了。

vector <- c(14, 7, 14, 4, 13)
df <- cbind(df, vector)
#     1     2  3  4  5 vector  #Note that the name is the name of the vector
#1 123A Alice 13 13 15     14
#2 456B  Bobo  8  4  9      7
#3 789C  Jack 14 16 13     14
#4 1011  Jill  0  7  6      4
#5 1213  Zoro 15 12 13     13

要更改名称,您可以names(df)<-names.df将 names.df 作为您想要获取的名称向量。要做到这一点,中位数和所以,您可以使用应用功能,但我不太了解如何向您展示...

于 2013-11-12T12:06:30.753 回答