0

我有一个 10.11 GB 的 CSV 文件,我已经使用 dask 转换为 hdf5。它是 str、int 和 float 值的混合。当我尝试用 vaex 阅读它时,我只会得到屏幕截图中给出的数字。有人可以帮我吗?

截屏:

在此处输入图像描述

4

1 回答 1

0

我不确定 dask(或 dask.dataframe)如何以 HDF5 格式存储数据。例如,Pandas 以基于行的格式存储数据。另一方面,vaex 需要基于列的 HDF5 文件。

从您的屏幕截图中,我看到您的 hdf5 文件还保留了索引列 - vaex 没有这样的列,并且只需要数据。

为确保 HDF5 文件与 vaex 一起使用,最好使用 vaex 本身进行 CSV->HDF5 转换。否则,也许像箭头这样的东西会起作用,因为它是一个标准(而 HDF5 可以更灵活,这更难支持所有可能的存储数据版本)。

于 2020-08-05T21:04:10.683 回答