我有一组 CSV 文件,每个文件都有一年的数据,每个文件都有YEAR
列。我想将它们转换为按年份划分的单个镶木地板数据集,以供以后在熊猫中使用。问题是所有年份组合的数据框太大而无法放入内存。是否可以逐个迭代地编写镶木地板分区?
我fastparquet
用作引擎。
简化的代码示例。此代码会破坏内存使用并崩溃。
df = []
for year in range(2000, 2020):
df.append(pd.read_csv(f'{year}.csv'))
df = pd.concat(df)
df.to_parquet('all_years.pq', partition_cols=['YEAR'])
我试着把岁月一一写出来,就像这样。
for year in range(2000, 2020):
df = pd.read_csv(f'{year}.csv')
df.to_parquet('all_years.pq', partition_cols=['YEAR'])
数据文件都在各自的YEAR=XXXX
目录中,但是当我尝试读取这样的数据集时,我只得到了最后一年。也许可以在编写单独的分区后修复镶木地板元数据?