3

我使用 pandas 创建了一个大型(120GB;10 亿行)HDF5 文件。在最初创建 hdf 文件后,我像这样添加到文件中:

with pd.get_store(path_output) as hdf_output:
  for i in range(BIG_LOOP):
    df = ...
    hdf_output.append('all', df, data_columns=[])

我故意设置 data_columns=[] 以避免在创建期间建立索引。现在我有了 HDF 文件,我想为几列添加索引(例如,columns_to_index=['A', 'B', 'C'])

不知何故,我现在确实有 ptdump data_columns:=['A'],但我不记得那是怎么发生的。(也许最初的 df 是用不同的参数编写的(我连续几天添加到 hdfstore 并且我可能已经改变了一些东西)。无论如何,无论如何,不​​管它是如何创建的,我想索引额外的列。

显然,简单地调用mystore.create_table_index('all', columns=['A', 'B', 'C'], optlevel=9, kind='full')是行不通的。我第一次运行它时,它搅动了一个小时,并在文件大小上增加了 2 GB(检查元数据显示块大小增加了),但我没有所有 3 个索引(只是“A”的索引)。如何为所有 3 列生成索引?

我还注意到 ptdump 中的这一行——对于我想要索引的项目,我有“non_index_axes”似乎令人不安:non_index_axes := [(1, ['A', 'B', 'C'])]

如果无法在 pandas 中创建索引,我将不胜感激有关如何直接在 pytables 中执行此操作的建议。(例如,我是否需要先删除任何现有索引?以及如何修改“non_index_axes”和“data_coumns”)

编辑:预期有关我的用例的问题,这是我要完成的工作的总体情况:

  1. 从 CSV 文件中读取 120 GB 的数据。每个文件代表一天的财务数据,由 100,000 行组成,每行大约有十几列。我只是将每一行按顺序存储在 HDF5 文件中。我希望这个初始阶段能够快速运行,因此我关闭了索引。目前,我在 6 秒内读取和解析每个 CSV 文件,并且如上所述存储到 HDF5 文件中只需 1.5 秒。

  2. 索引少数(不是全部)列以支持各种查询,例如获取第 1 列中具有给定字符串的所有项目以及第 2 列中特定范围内的日期。

  3. 随着时间的推移,我每天都会解析一个新的 CSV 文件并将其添加到 HDF5 文件中。我预计指数会继续更新。

  4. (根据我的访问模式,我存储行的顺序(当前,按日期)可能仍然是检索的最佳顺序。在大多数查询中,我最终可能还需要按不同的列排序,在这种情况下,我认为在解析和附加每个 CSV 文件后,我需要重新排序表格。)

目前我被困在第 2 步,生成列索引。

4

1 回答 1

2

我会做一些不同的事情 -看看这个小例子

for chunk in ...  # reading data in chunks:
    # specify `data_columns`, but don't index (`index=False`)
    hdf_output.append('all', chunk, data_columns=[cols_to_index], index=False)

# index columns explicitly     
hdf_output.create_table_index(hdf_key, columns=cols_to_index, optlevel=9, kind='full')
于 2016-08-01T20:35:37.910 回答