数据框的 Dask 包的文档说:
Dask 数据帧的外观和感觉类似于 pandas 数据帧,但使用多个线程对大于内存的数据集进行操作。
但稍后在同一页面中:
一个 dask DataFrame 由几个沿索引分隔的内存中 pandas DataFrame 组成。
Dask 是否依次从磁盘读取不同的 DataFrame 分区并执行计算以适应内存?它会在需要时将一些分区溢出到磁盘吗?一般来说,Dask 是如何管理数据的内存<--> 磁盘 IO 来实现大于内存的数据分析的呢?
我尝试在 10M MovieLens 数据集上执行一些基本计算(例如平均评分),我的笔记本电脑(8GB RAM)开始交换。