-1

我想将较大的 csv 文件转换为 hdf5 格式。我正在使用 vaex 库,它只接受 hdf5 扩展来加载数据集。我还需要 R 中上述问题的解决方案。

4

1 回答 1

1

在python中,您可以简单地:

pd.read_csv('data.csv').to_hdf('data.h5')

您应该至少有 20GB 的 RAM 来加载 CSV 文件。

Vaex不支持 csv 文件?

https://vaex.io/docs/example_io.html#Text-based-file-formats

你可以试试这个代码:

for i, chunk in enumerate(vaex.read_csv('/path/to/data/BigData.csv', chunksize=100_000)):
    df_chunk = vaex.from_pandas(chunk, copy_index=False)
    export_path = f'/path/to/data/part_{i}.hdf5'
    df_chunk.export_hdf5(export_path)

df = vaex.open('/path/to/data/part*')
df.export_hdf5('/path/to/data/Final.hdf5')

来源:https ://www.programmersought.com/article/95165112668/

于 2021-08-01T05:23:07.633 回答