python - pandas 将 csv 转换为 h5 文件，避免内存错误

Question

我有这个简单的代码

data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, 
                   names=None, usecols=None)

data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table')

但是我的数据太大了，我遇到了内存问题。

什么是逐块执行此块的干净方法？

score 0 · Accepted Answer

如果 csv 真的很大，请使用此处详述的方法拆分文件：chunking-data-from-a-large-file-for-multiprocessing

然后遍历文件并在每个文件上使用 pd.read_csv 然后使用 pd.to_hdf 方法

对于 to_hdf 在这里检查参数：DataFrame.to_hdf 你需要确保模式'a'并考虑追加。

在不了解有关数据框结构的更多细节的情况下，很难进一步评论。

对于 read_csv 也有参数：low_memory=False

python - pandas 将 csv 转换为 h5 文件，避免内存错误

1 回答 1

Related

Reference