python - 在Python中从逗号分隔的字符串中仅提取某些字段的最快方法

Question

假设我有一个字符串，其中包含来自数据库或电子表格的逗号分隔格式的数据。

例如：

data = "hello,how,are,you,232.3354,good morning"

假设这些“记录”中可能有 200 个字段。

我有兴趣查看此记录的某些字段。Python 中最快的方法是什么？

最简单的方法是：

fields = data.split(",")
result = [fields[4], fields[12], fields[123]]

有没有更快的方法来做到这一点，利用以下事实：

我尝试使用重复调用来编写一些代码来查找以跳过传递的逗号，但是如果最后一个字段在字符串下方太远，这将比基本拆分解决方案慢。

我正在处理几百万条记录，因此欢迎任何加速。

score 1 · Accepted Answer

您不会比将所有内容加载到内存中然后删除您需要的部分做得更好。我的建议是压缩和更好的库。

碰巧我周围有几个大小合理的csv（这个是500k行）。

> import gzip
> import pandas as pd
> %timeit pd.read_csv(gzip.open('file.csv.gz'))
1 loops, best of 3: 545 ms per loop

删除列也很快，我不确定主要成本是多少。

> %timeit csv[['col1', 'col2']]
100 loops, best of 3: 5.5 ms per loop

score 0 · Accepted Answer

如果result可以是 atuple而不是列表，您可能会获得一点加速（如果您正在进行多个调用），使用operator.itemgetter：

from operator import itemgetter
indexer = itemgetter(4,12,123)
result = indexer(data.split(','))

您需要timeit实际查看是否获得了加速。

2 回答 2