python - Pandas 将 ISO 字符串转换为 datetime64

Question

我希望快速将大约 10-20M ISO 日期时间字符串以微秒精度转换为 datetime64，以用作熊猫中的 DataFrame 索引。

我在 pandas 0.9 上，并尝试过在git上建议的解决方案，但我发现它需要 20 到 30 分钟，或者永远不会完成。

我想我找到了问题所在。比较这两者的速度：

rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y-%m-%d %H:%M:%S.%f') for x in rng]
timeit to_datetime(strings)

在我的笔记本电脑上，约 300 毫秒。

rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%S.%f') for x in rng]
timeit to_datetime(strings)

在我的笔记本电脑上，永远和一天。

我现在可能只是更改生成时间戳的 c++ 代码，以将它们置于更详细的 ISO 形式中，因为循环并修复数千万个邮票上的格式可能非常慢......

score 4 · Accepted Answer

快速解析器代码仅处理带有破折号和冒号的标准 ISO-8601——正如您所见，当字符串格式正确时，它的速度非常快。如果您可以说服代码在 GitHub 上，并且肯定可以改进以处理更多案例（最好不要过多地降低标准格式的速度）。

作为一种部分令人满意的解决方法，您可以使用datetime.strptime将字符串转换为datetime.datetime，然后将该结果传递给to_datetime：

In [4]: paste
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%S.%f') for x in rng]

## -- End pasted text --

In [5]: iso_strings = [x.strftime('%Y-%m-%d %H:%M:%S.%f') for x in rng]

In [6]: %timeit result = to_datetime(iso_strings)
1 loops, best of 3: 479 ms per loop

In [7]: f = lambda x: datetime.strptime(x, '%Y%m%dT%H%M%S.%f')

In [8]: f(strings[0])
Out[8]: datetime.datetime(2000, 1, 1, 0, 0)

In [9]: %time result = to_datetime(map(f, strings))
CPU times: user 48.47 s, sys: 0.01 s, total: 48.48 s
Wall time: 48.54 s

它有 100 倍的不同，但比 1000+% 慢得多。我敢打赌to_datetime，可以改进使用 C 版本的 strptime，它会更快。练习留给读者，我猜

某天待办事项：http: //github.com/pydata/pandas/issues/2213

python - Pandas 将 ISO 字符串转换为 datetime64

1 回答 1

Related

Reference