目前,在处理复杂的嵌套结构时,Spark 结构和 Dask 之间的集成似乎很麻烦。尽管镶木地板加载是正在进行的大量工作的一部分(fastparquet,pyarrow),但专门转储具有嵌套结构以供 Dask 读取的 Spark Dataframe 似乎还不是很可靠;
所以我的后续问题 - 假设我可以在 Spark 中进行一些转换并将 DataFrame 转换为包含自定义类对象的 RDD;有没有办法可靠地使用自定义类对象转储 Spark RDD 的数据并在 Dask 集合中读取它?显然,您可以将 rdd 收集到 python 列表中,对其进行腌制,然后将其作为普通数据结构读取,但这消除了加载大于内存数据集的机会。dask 可以使用火花酸洗之类的东西来加载分布式泡菜吗?