0

我想用 dask 将具有不同方案的多个镶木地板文件读取到 pandas 数据帧,并能够合并这些方案。当我谈论不同的方案时,我的意思是,所有这些文件中都有共同的列,但在某些文件中,有些列在其他文件中不存在。

不幸的是,当我阅读文件时

dd.read_parquet(my_parquet_files, engine="fastparquet")

我只阅读了常见的列。我知道在 spark 中有一个 read 选项mergeSchema,我想知道在 dask 中是否有一种简单的方法可以做到这一点?

4

1 回答 1

2

我建议单独阅读不同类型的文件,然后将它们与dd.concat

dfs = [dd.read_parquet(...) for ... in ...]
df = dd.concat(dfs, axis=0)

然后,Pandas 用于连接具有混合列的数据帧的任何策略都将接管。如果 Pandas 支持这种行为,那么 Dask 数据框可能会支持这种行为。

如果没有,那么听起来您正在请求功能请求,在这种情况下,您可能应该在https://github.com/dask/dask/issues/new提出问题

于 2019-09-04T19:59:34.253 回答