我想用 dask 将具有不同方案的多个镶木地板文件读取到 pandas 数据帧,并能够合并这些方案。当我谈论不同的方案时,我的意思是,所有这些文件中都有共同的列,但在某些文件中,有些列在其他文件中不存在。
不幸的是,当我阅读文件时
dd.read_parquet(my_parquet_files, engine="fastparquet")
我只阅读了常见的列。我知道在 spark 中有一个 read 选项mergeSchema
,我想知道在 dask 中是否有一种简单的方法可以做到这一点?