我正在尝试使用 dask 读取大量数据,如下所示
import dask.dataframe as dd
df = dd.read_csv('some_file.txt', sep = '|', header = None)
虽然这工作正常并且我得到了一组分区,但出于某种原因,每当我尝试如下设置和索引时:
df = dd.read_csv('some_file.txt', sep = '|', header = None).set_index('col1')
我的机器内存不足,我不知道为什么