我浏览了 Dask 教程,它们总是从客户端的初始化开始:
from dask.distributed import Client
client = Client(n_workers=4)
我最感兴趣的是使用 Dask 的 read_csv 函数在我的笔记本电脑上并行读取 DataFrame。
import dask.dataframe as dd
df = dd.read_csv('trainset.csv').compute()
尽管设置了 n_workers=4,但 Dask 在读取 csv 时会使用所有内核。是否初始化Client都是一样的。当我在本地使用 Dask 并且仅用于读取文件时,我什至需要初始化客户端吗?它是用 Dask 隐式初始化的吗?