我有一个xlsx
包含 11 列、15M 行和 198Mb 大小的文件。与熊猫一起阅读和工作需要很长时间。阅读 Stackoverflow答案后,我切换到dask
和modin
。但是,我在使用时收到以下错误dask
:
df = dd.read_csv('15Lacs.csv', encoding= 'unicode_escape')
c error :out of memory
.
当我使用时,modin['ray']
我收到以下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 112514: invalid start byte
有没有一种更有效的方法可以在普通硬件上将大文件xlsx
或csv
文件导入 python?