现在我正在使用 Dask 读取大的 csv 文件并对其进行一些后处理(例如,做一些数学运算,然后通过一些 ML 模型进行预测并将结果写入数据库)。避免将所有数据加载到内存中,我想按当前大小的块读取:读取第一个块,预测,写入,读取第二个块等。
我尝试了使用skiprows
and 的下一个解决方案nrows
:
import dask.dataframe as dd
read_path = "medium.csv"
# Read by chunk
skiprows = 100000
nrows = 50000
res_df = dd.read_csv(read_path, skiprows=skiprows)
res_df = res_df.head(nrows)
print(res_df.shape)
print(res_df.head())
但我得到错误:
ValueError:样本不够大,无法包含至少一行数据。请增加对/
sample
的调用中 的字节数read_csv
read_table
此外,据我了解,它每次都会为所有数据计算二进制掩码 ([False, False, ... , True, ...]) 以查找要加载的行。我们怎样才能更有效地做到这一点?也许使用 dask 的一些分布式或延迟功能?