python - 使用 Python 在单个 Excel 中将大型 CSV 文件拆分为多个工作表

Question

我正在使用这段代码使用 pandas 读取 csv（大约 1 GB），然后使用 chunksize 写入多个 excel 表。

with pd.ExcelWriter('/tmp/output.xlsx',engine='xlsxwriter') as writer:
        reader = pd.read_csv(f'/tmp/{file_name}', sep=',', chunksize=1000000)
        for idx, chunk in enumerate(reader):
            chunk.to_excel(writer, sheet_name=f"Report (P_{idx + 1})", index=False)
        writer.save()

这种方法需要很多时间。有人可以建议任何方法来减少这个时间吗？

score 0 · Accepted Answer

几天前我遇到了同样的问题，所以我尝试了

您可以使用名为 vaex [1] 的库：https://vaex.readthedocs.io/en/latest/

或者，如果您要自己使用 pandas，请尝试使用 apache pyspark

或者使用可以使用 1200 credit 的 Google colud

python - 使用 Python 在单个 Excel 中将大型 CSV 文件拆分为多个工作表

1 回答 1

Related

Reference