我在平面文件中有几 TB 数据(在子集中),我想使用 Python Pandas/Pytables/H5py 将其转换为 HDF5,以便更快地查询和搜索。我打算使用类似的东西转换数据的每个子部分to_hdf
并将它们存储在 HDFStore 中。
虽然存储的数据永远不需要更改,但我可能需要稍后将数据附加到某个特定的小节,然后重新索引(用于查询)整个片段。
我的问题是:将数据附加到现有表(使用store.append
)然后重新索引新表是否更有效,还是应该简单地使用需要附加的数据创建一个新表?
如果我做后者,我可能会在 HDSFStore 中创建很多(超过 100k)节点。这会降低节点访问时间吗?
我尝试查看其他答案,还创建了自己的带有一堆节点的商店,以查看是否有效果,但我找不到任何重要的东西。任何帮助表示赞赏!