python - dask 读取具有不同模式的多个镶木地板文件

Question

我想用 dask 将具有不同方案的多个镶木地板文件读取到 pandas 数据帧，并能够合并这些方案。当我谈论不同的方案时，我的意思是，所有这些文件中都有共同的列，但在某些文件中，有些列在其他文件中不存在。

不幸的是，当我阅读文件时

dd.read_parquet(my_parquet_files, engine="fastparquet")

我只阅读了常见的列。我知道在 spark 中有一个 read 选项mergeSchema，我想知道在 dask 中是否有一种简单的方法可以做到这一点？

score 2 · Accepted Answer

我建议单独阅读不同类型的文件，然后将它们与dd.concat

dfs = [dd.read_parquet(...) for ... in ...]
df = dd.concat(dfs, axis=0)

然后，Pandas 用于连接具有混合列的数据帧的任何策略都将接管。如果 Pandas 支持这种行为，那么 Dask 数据框可能会支持这种行为。

如果没有，那么听起来您正在请求功能请求，在这种情况下，您可能应该在https://github.com/dask/dask/issues/new提出问题

1 回答 1