0

使用 pyarrow。我有一个由多个镶木地板文件组成的镶木地板数据集。如果文件之间的列不同,那么我会得到“ValueError:架构不同”。

有没有办法避免这种情况?这意味着我想要一个由文件组成的数据集,每个文件都包含不同的列。

我想这可以通过 pyarrow 来完成,如果数据集的特定组件文件中不存在这些列,则将缺失列的值填充为 na。

谢谢

4

1 回答 1

-1

加载具有单独数据帧(如 df1 和 df2)的文件,通过参考这篇文章合并这些数据帧。

在文章中,您可能会发现两种合并方式,一种是

df1.merge(df2, how = 'outer')

另一个带有 pandas 包的内容如下:

pd.concat([df1, df2])
于 2019-07-27T10:33:35.030 回答