python - 将带有 2 张纸或 csv 的大型 xlsx 读入数据框

Question

我有一个xlsx包含 11 列、15M 行和 198Mb 大小的文件。与熊猫一起阅读和工作需要很长时间。阅读 Stackoverflow答案后，我切换到dask和modin。但是，我在使用时收到以下错误dask：

df = dd.read_csv('15Lacs.csv', encoding= 'unicode_escape')

c error :out of memory.

当我使用时，modin['ray']我收到以下错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 112514: invalid start byte

有没有一种更有效的方法可以在普通硬件上将大文件xlsx或csv文件导入 python？

score 1 · Accepted Answer

如果你在黄昏，

df = dd.read_csv('15Lacs.csv', encoding= 'unicode_escape', blocksize="8MB")

如果你在熊猫，

for batch in pd.read_csv('15Lacs.csv', chunksize=1000):
    process(batch)

我猜你正在用加载这个加上一堆其他东西并运行 Windows 来填满你的 ram？

1 回答 1