python - 在熊猫中使用 groupby/agg 的奇怪时区行为

Question

我遇到了一些奇怪的行为，试图按 ID 对 pandas 数据帧的行进行分组，然后选择最大/最小日期时间（带时区）。这适用于 pandas 0.18.1 和 numpy 1.11.1（我在之前的帖子中看到类似的问题显然已通过 pandas 0.15 得到解决）。

具体来说，如果我尝试：

print orders.groupby('OrderID')['start_time'].agg(np.min).iloc[:5]

我得到：

OrderID
O161101XVS100000044   2016-11-01 12:03:12.920000-04:00
O161101XVS100000047   2016-11-01 12:03:36.693000-04:00
O161101XVS100000098   2016-11-01 12:09:08.330000-04:00
O161101XVS100000122   2016-11-01 12:09:59.950000-04:00
O161101XVS100000152   2016-11-01 12:11:29.790000-04:00
Name: start_time, dtype: datetime64[ns, US/Eastern]

原始数据的时间接近上午 8 点（美国/东部）。换句话说，它恢复到 UTC 时间，即使它说它是东部时间，并且有 UTC-4 偏移量。

但如果我改为尝试：

print orders.groupby('OrderID')['start_time'].agg(lambda x: np.min(x)).iloc[:5]

我现在得到：

OrderID
O161101XVS100000044   2016-11-01 08:03:12.920000-04:00
O161101XVS100000047   2016-11-01 08:03:36.693000-04:00
O161101XVS100000098   2016-11-01 08:09:08.330000-04:00
O161101XVS100000122   2016-11-01 08:09:59.950000-04:00
O161101XVS100000152   2016-11-01 08:11:29.790000-04:00
Name: start_time, dtype: datetime64[ns, US/Eastern]

这是我想要的行为。第二种方法要慢得多，我会假设这两种方法会产生相同的结果......

score 1 · Accepted Answer

我可以确认这种行为。问题出在pandas/types/cast/_possibly_downcast_to_dtype(). 计算以 . 形式完成i8，然后转换回时区感知型datetime. 但是这一行：

result = to_datetime(result).tz_localize(dtype.tz)

需要是这样的：

result = to_datetime(result).tz_localize('utc')
result = result.tz_convert(dtype.tz)

更新：

我已经提交了一个PR来解决这个问题。

更新 2：

PR 已合并，应该在0.20.0

python - 在熊猫中使用 groupby/agg 的奇怪时区行为

1 回答 1

Related

Reference