r - 为什么中位数跳闸 data.table （整数与双精度）？

Question

我有一个名为 enc.per.day 的 data.table 用于每天的遭遇。它有 2403 行，其中指定了服务日期和当天就诊的患者人数。我想查看在任何类型的工作日看到的患者的中位数。

enc.per.day[,list(patient.encounters=median(n)),by=list(weekdays(DOS))]

那行给出了一个错误

( enc.per.day [.data.table, , list(patient.encounters = median(n)), 中的错误：j 的列不评估为每个组的一致类型：第 4 组的结果具有第 1 列类型“整数”但期望输入“双”

以下都运行良好

tapply(enc.per.day$n,weekdays(enc.per.day$DOS),median)
enc.per.day[,list(patient.encounters=round(median(n))),by=list(weekdays(DOS))]
enc.per.day[,list(patient.encounters=median(n)+0),by=list(weekdays(DOS))]

到底是怎么回事？我花了很长时间才弄清楚为什么我的代码不起作用。

顺便说一下，底层向量 enc.per.day$n 是一个整数

storage.mode(enc.per.day$n)

返回“整数”。此外，data.table 中的任何地方都没有 NA。

score 50 · Accepted Answer

TL;DR 换median行as.double()

median()'绊倒' data.table因为 --- 即使只传递整数向量 ---median()有时返回一个整数值，有时返回一个双精度值。

## median of 1:3 is 2, of type "integer" 
typeof(median(1:3))
# [1] "integer"

## median of 1:2 is 1.5, of type "double"
typeof(median(1:2))
# [1] "double"

用一个最小的例子重现你的错误信息：

library(data.table)
dt <- data.table(patients = c(1:3, 1:2), 
                 weekdays = c("Mon", "Mon", "Mon", "Tue", "Tue"))

dt[,median(patients), by=weekdays]
# Error in `[.data.table`(dt, , median(patients), by = weekdays) : 
#   columns of j don't evaluate to consistent types for each group: 
#   result for group 2 has column 1 type 'double' but expecting type 'integer'

data.table抱怨是因为，在检查了要处理的第一组的值之后，它得出的结论是，好的，这些结果将是“整数”类型。但是马上（或者在你的第 4 组中），它被传递了一个“double”类型的值，它不适合它的“整数”结果向量。

data.table可以改为累积结果，直到分组计算结束，然后在必要时执行类型转换，但这将需要大量额外的降低性能的开销；相反，它只是报告发生的事情并让您解决问题。在第一个组运行后，它知道结果的类型，它分配一个该类型的结果向量，只要组的数量，然后填充它。如果它稍后发现某些组返回超过 1 个项目，它将根据需要增长（即重新分配）该结果向量。但在大多数情况下，data.table对结果最终大小的第一次猜测是第一次正确（例如，每组 1 行结果），因此速度很快。

在这种情况下，使用as.double(median(X))而不是median(X)提供了一个合适的修复。

（顺便说一句，您的版本使用round()有效，因为它总是返回“double”类型的值，正如您可以通过键入看到的那样typeof(round(median(1:2))); typeof(round(median(1:3)))。）

r - 为什么中位数跳闸 data.table （整数与双精度）？

1 回答 1

Related

Reference