python - 我可以使用 pyarrow 加载多个 csv 文件吗？

Question

我知道这可以在 R 中完成，如下所示

ds <- open_dataset("nyc-taxi/csv/2019", format = "csv",
  partitioning = "month")

但是有没有办法在 python 中做？尝试了这些，但似乎那不是一个选择

from pyarrow import csv
table = csv.read_csv("*.csv")

from pyarrow import csv
path = os.getcwd()
table = csv.read_csv(path)
table

有没有办法让它在 python 中发生？

score 4 · Accepted Answer

是的，您也可以使用 pyarrow 来执行此操作，就像在 R 中一样，使用pyarrow.dataset子模块（pyarrow.csv子模块仅公开处理单个 csv 文件的功能）。

示例代码：

import pyarrow.dataset as ds

dataset = ds.dataset("nyc-taxi/csv/2019", format="csv", partitioning=["month"])
table = dataset.to_table()

然后在to_table()方法中您可以指定行/列过滤器。

1 回答 1