我想将较大的 csv 文件转换为 hdf5 格式。我正在使用 vaex 库,它只接受 hdf5 扩展来加载数据集。我还需要 R 中上述问题的解决方案。
问问题
169 次
1 回答
1
在python中,您可以简单地:
pd.read_csv('data.csv').to_hdf('data.h5')
您应该至少有 20GB 的 RAM 来加载 CSV 文件。
Vaex
不支持 csv 文件?
https://vaex.io/docs/example_io.html#Text-based-file-formats
你可以试试这个代码:
for i, chunk in enumerate(vaex.read_csv('/path/to/data/BigData.csv', chunksize=100_000)):
df_chunk = vaex.from_pandas(chunk, copy_index=False)
export_path = f'/path/to/data/part_{i}.hdf5'
df_chunk.export_hdf5(export_path)
df = vaex.open('/path/to/data/part*')
df.export_hdf5('/path/to/data/Final.hdf5')
于 2021-08-01T05:23:07.633 回答