3

我正在处理一个包含 2000 万多条记录的非常庞大的数据集。我正在尝试将所有数据保存为羽毛格式以便更快地访问,并在我进行分析时附加。

有没有办法将熊猫数据框附加到现有的羽毛格式文件中?

4

1 回答 1

4

羽化文件旨在一次写入。因此,附加到它们不是受支持的用例。

相反,我会向您推荐如此大的数据集,使用or将数据写入单个Apache Parquet 文件,并使用pyarrow.parquet.write_tableorpandas.DataFrame.to_parquet将数据读回 Pandas 。这些函数可以将 Parquet 文件的集合视为一个单独的数据集,该数据集可以一次读取到单个 DataFrame 中。pyarrow.parquet.ParquetDatasetpandas.read_parquet

于 2018-11-27T21:31:20.543 回答