3

我有一个 190,000 行 X 13 列整数的大型数据框,我想计算整个事物中所有非零整数的计数。

我知道我可以编写一个嵌套的 for 循环来遍历每一列的每一行,但是是否有一个函数或一行代码可以执行相同的任务?

4

1 回答 1

7

共识是这sum(df != 0)比当前接受的解决方案更短且更有效。我要补充一点,如果你有你说的整数,那么你应该比较0L(integer) 而不是0(numeric) 以避免不必要的转换。此外,将您的 data.frame 转换为矩阵会更快。以下是一些基准:

df <- as.data.frame(as.matrix(sample(as.integer(0:9), 190000*13, TRUE), 190000))

library(microbenchmark)
microbenchmark(
  sum(df != 0),
  sum(df != 0L),
  sum(as.matrix(df) != 0L)
)
# Unit: milliseconds
#                      expr      min       lq   median       uq       max neval
#              sum(df != 0) 57.44615 61.40066 62.83314 76.93262 116.42085   100
#             sum(df != 0L) 46.01104 48.76516 53.00026 55.91232  74.20851   100
#  sum(as.matrix(df) != 0L) 20.25708 25.22730 27.43667 30.36676  48.23750   100

相比之下,@Codoremifa 的解决方案大约需要 2.5 秒,即在这个特定数据上慢了近 100 倍。

于 2013-10-23T11:18:12.503 回答