r - data.table 1.8.x mean() 函数自动删除 NA？

Question

今天我在我的程序中发现了一个错误，由于data.table自动删除NAmean

例如：

> a<-data.table(a=c(NA,NA,FALSE,FALSE), b=c(1,1,2,2))
> a

> a[,list(mean(a), sum(a)),by=b]
   b V1 V2
1: 1  0 NA // Why V1 = 0 here? I had expected NA
2: 2  0  0


> mean(c(NA,NA,FALSE,FALSE))
[1] NA
> mean(c(NA,NA))
[1] NA
> mean(c(FALSE,FALSE))
[1] 0

这是预期的行为吗？

score 5 · Accepted Answer

这不是故意的。好像是优化的问题...

> a[,list(mean(a), sum(a)),by=b]
   b V1 V2
1: 1  0 NA
2: 2  0  0
> options(datatable.optimize=FALSE)
> a[,list(mean(a), sum(a)),by=b]
   b V1 V2
1: 1 NA NA
2: 2  0  0
>

在 v1.8.9 中进行了调查和修复，即将在 CRAN 上。来自新闻：

j 中的 mean() 自 v1.8.2 以来已进行了优化，但不尊重 na.rm=TRUE （默认值）。非常感谢 Colin Fang 的报道。添加了测试。

v1.8.2 中的新功能是：

mean() 现在自动优化，#1231。这可以在有大量组时将分组速度提高 20 倍。请参阅wiki point 3，不再需要知道。通过设置选项（datatable.optimize=0）关闭优化。

r - data.table 1.8.x mean() 函数自动删除 NA？

1 回答 1

Related

Reference