parquet - parquet：具有不同列的数据集文件

Question

使用 pyarrow。我有一个由多个镶木地板文件组成的镶木地板数据集。如果文件之间的列不同，那么我会得到“ValueError：架构不同”。

有没有办法避免这种情况？这意味着我想要一个由文件组成的数据集，每个文件都包含不同的列。

我想这可以通过 pyarrow 来完成，如果数据集的特定组件文件中不存在这些列，则将缺失列的值填充为 na。

谢谢

score -1 · Accepted Answer

加载具有单独数据帧（如 df1 和 df2）的文件，通过参考这篇文章合并这些数据帧。

在文章中，您可能会发现两种合并方式，一种是

df1.merge(df2, how = 'outer')

另一个带有 pandas 包的内容如下：

pd.concat([df1, df2])

1 回答 1