hadoop - 如何将 HDF5 文件转换为 Parquet 文件？

Question

我通过 pandas 将大约 800 GB 的巨大数据帧存储到 HDF5 中pandas.HDFStore()。

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

我想用 Impala 查询这个。有没有一种直接的方法可以将这些数据解析成 Parquet？或者 Impala 是否允许您直接使用 HDF5？HDF5上的数据还有另一种选择吗？

score 0 · Accepted Answer

我自己没有尝试过，但这里有一个链接显示如何使用 Spark 将 HDFStore 转换为 Parquet： https ://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f 。

1 回答 1