使用 pyarrow。我有一个由多个镶木地板文件组成的镶木地板数据集。如果文件之间的列不同,那么我会得到“ValueError:架构不同”。
有没有办法避免这种情况?这意味着我想要一个由文件组成的数据集,每个文件都包含不同的列。
我想这可以通过 pyarrow 来完成,如果数据集的特定组件文件中不存在这些列,则将缺失列的值填充为 na。
谢谢
使用 pyarrow。我有一个由多个镶木地板文件组成的镶木地板数据集。如果文件之间的列不同,那么我会得到“ValueError:架构不同”。
有没有办法避免这种情况?这意味着我想要一个由文件组成的数据集,每个文件都包含不同的列。
我想这可以通过 pyarrow 来完成,如果数据集的特定组件文件中不存在这些列,则将缺失列的值填充为 na。
谢谢
加载具有单独数据帧(如 df1 和 df2)的文件,通过参考这篇文章合并这些数据帧。
在文章中,您可能会发现两种合并方式,一种是
df1.merge(df2, how = 'outer')
另一个带有 pandas 包的内容如下:
pd.concat([df1, df2])