11

有没有办法以日期时间格式计算并返回日期时间列的中位数?我想计算 python 中 datetime64[ns] 格式的列的中位数。以下是该列的示例:

df['date'].head()

0   2017-05-08 13:25:13.342
1   2017-05-08 16:37:45.545
2   2017-01-12 11:08:04.021
3   2016-12-01 09:06:29.912
4   2016-06-08 03:16:40.422

名称:新近度,数据类型:datetime64[ns]

我的目标是使中位数与上面的日期列具有相同的日期时间格式:

尝试转换为 np.array:

median_ = np.median(np.array(df['date']))

但这会引发错误:

TypeError: ufunc add cannot use operands with types dtype('<M8[ns]') and dtype('<M8[ns]')

转换为 int64 然后计算中位数并尝试将格式返回为 datetime 不起作用

df['date'].astype('int64').median().astype('datetime64[ns]')
4

3 回答 3

12

您也可以尝试quantile(0.5)

df['date'].astype('datetime64[ns]').quantile(0.5, interpolation="midpoint")
于 2018-02-09T16:06:10.067 回答
6

只取中间值怎么样?

dates = list(df.sort('date')['date'])
print dates[len(dates)//2]

如果表格已排序,您甚至可以跳过一行。

于 2017-05-10T10:20:49.267 回答
4

您很接近,median()返回 afloat所以将其转换为int第一个:

import math

median = math.floor(df['date'].astype('int64').median())

然后将int表示日期转换为datetime64

result = np.datetime64(median, "ns") #unit: nanosecond
于 2017-05-10T11:16:32.853 回答