这是一个典型的数据框:
df <- data.frame(
'ID' = c("123A","456B","789C","1011","1213")
, 'Name' = c("Alice","Bobo","Jack","Jill","Zoro")
, 'Quizzes' = c(13,8,14,NA,15)
, 'Midterm' = c(13,4,16,7,12)
, 'Final' = c(15,9,13,6,13)
)
df
ID Name Quizzes Midterm Final
1 123A Alice 13 13 15
2 456B Bobo 8 4 9
3 789C Jack 14 16 13
4 1011 Jill NA 7 6
5 1213 Zoro 15 12 13
我想添加数字列(不包括'ID'
and 'Name'
)来计算'Grade'
列。然后我想计算每个数字列的平均值、中值、最大值、最小值和标准差。最后,我想将统计数据合并到原始数据框中。
一个问题是列名(在此示例中为ID
, Name
, Quizzes
, Midterm
, Final
)是未知的。列数也是未知的,它可能有 2 个标识列(ID
在Name
本例中为 , )或更多,并且可能有 3 个等级组件(在本例中为 , Quizzes
)或更多。Midterm
Final
但是,我知道第一列总是包含一个唯一标识符。
可能缺少数据和/或 NA 数据。
按列添加(水平添加)时,我想假设缺失和 NA 被视为零。按行添加(或计算任何其他统计数据)(垂直添加)时,我想忽略缺失值和 NA 值(将它们视为异常值)。
我的困难分为两类:1)处理 NA 和缺失值,2)当 colnames 未知时合并数据帧。
df$Means = rowMeans(df[sapply(df, is.numeric)])
df
ID Name Quizzes Midterm Final Means
1 123A Alice 13 13 15 13.66667
2 456B Bobo 8 4 9 7.00000
3 789C Jack 14 16 13 14.33333
4 1011 Jill NA 7 6 NA
5 1213 Zoro 15 12 13 13.33333
我知道如何删除 NA:
df$Means = rowMeans(df[sapply(df, is.numeric)], na.rm = TRUE)
df
ID Name Quizzes Midterm Final Means
1 123A Alice 13 13 15 13.66667
2 456B Bobo 8 4 9 7.00000
3 789C Jack 14 16 13 14.33333
4 1011 Jill NA 7 6 6.50000
5 1213 Zoro 15 12 13 13.33333
但我想将它们视为零。
第一个问题:是否有一种单行方法可以在不改变数据帧的情况下将 NA 视为零 (0)?
编辑 1:让我澄清一下,我知道如何在数据帧中用 0 替换 NA df[is.na(df)] <-0
,但我希望保持原始数据帧的数据不变,保持 NA,而计算意味着将 NA 视为零。
一点解释: sapply(df, is.numeric)
旨在忽略前两列,我不知道它们的列名。
我还想将统计信息合并到原始数据框中,以方便显示和导出到工作表。我走了一部分路,但不是很远。我尝试调整此处描述的解决方案将新行添加到数据框中,在特定的行索引处,未附加?
# create a dataframe of sums
data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))
ID Quizzes Midterm Final
1 Mean 12.5 10.4 11.2
# add sums to original data frame
newRow <- data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))
insertRow <- function(df, r, p) {
# df = data frame
# r = new row
# p = position
df[seq(p+1,nrow(df)+1),] <- df[seq(p,nrow(df)),]
df[p,] <- r
df
}
insertRow(df[,-1],newRow,nrow(df)+1)
Name Quizzes Midterm Final
1 Alice 13.0 13.0 15.0
2 Bobo 8.0 4.0 9.0
3 Jack 14.0 16.0 13.0
4 Jill NA 7.0 6.0
5 Zoro 15.0 12.0 13.0
NA <NA> 12.5 10.4 11.2
7 <NA> NA NA NA
Warning message:
In `[<-.factor`(`*tmp*`, iseq, value = 1L) :
invalid factor level, NA generated
第二个问题: 如何有效地将我的垂直总和(以及平均值和中位数等)合并回原始数据框中?回想一下,我不知道 colnames,我只知道第一列是唯一标识符。编辑:下面描述了一个解决方案。
编辑 2:我避免使用 rbind 因为我正在寻找一个有效的解决方案。url在特定的行索引处向数据框添加新行,未附加?声明“这是一个避免(通常很慢) rbind 调用的解决方案。” 我不知道为什么 rbind 可能会很慢,但是我按照建议尝试实施针对我当前问题的解决方案。
谢谢!如果需要,请务必要求澄清。
编辑3:
我上面引用的线程,在特定行索引处向数据框添加新行,未附加?,实际上有一个“有效”的解决方案,可以避免上面使用 insertRow 函数描述的奇怪行为(我赶紧补充说,奇怪的行为很可能是我滥用函数的结果)。这是一个有效并解决了我的第二个问题的函数:
insertRow2 <- function(df, r, p) {
df <- rbind(df,r)
df <- df[order(c(1:(nrow(df)-1),p-0.5)),]
row.names(df) <- 1:nrow(df)
return(df)
}
insertRow2(df[,-1],newRow,nrow(df)+1)
Name Quizzes Midterm Final
1 Alice 13.0 13.0 15.0
2 Bobo 8.0 4.0 9.0
3 Jack 14.0 16.0 13.0
4 Jill NA 7.0 6.0
5 Zoro 15.0 12.0 13.0
6 Mean 12.5 10.4 11.2
至于我的第一个问题,由于没有单线即将推出,我创建了这样的自定义函数:
colMeanz <- function(df) {
df[is.na(df)] <- 0
return(colMeans(df))
}
相当不雅,但你去。感谢 Llopis 提供的帮助。
上下文的额外解释:在计算一个学生的平均值时,将 NA 视为零是有意义的,而在计算整个班级的平均值时,将 NA 视为 'na.rm=TRUE' 是有意义的。