0

我有一个xlsx包含 11 列、15M 行和 198Mb 大小的文件。与熊猫一起阅读和工作需要很长时间。阅读 Stackoverflow答案后,我切换到daskmodin。但是,我在使用时收到以下错误dask

df = dd.read_csv('15Lacs.csv', encoding= 'unicode_escape') 

c error :out of memory.

当我使用时,modin['ray']我收到以下错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 112514: invalid start byte

有没有一种更有效的方法可以在普通硬件上将大文件xlsxcsv文件导入 python?

4

1 回答 1

1

如果你在黄昏,

df = dd.read_csv('15Lacs.csv', encoding= 'unicode_escape', blocksize="8MB")

如果你在熊猫,

for batch in pd.read_csv('15Lacs.csv', chunksize=1000):
    process(batch)

我猜你正在用加载这个加上一堆其他东西并运行 Windows 来填满你的 ram?

于 2020-09-30T17:39:09.760 回答