我正在尝试将大型数据集(>30Gb)附加到现有的 pytables 表中。表为 N 列,数据集为 N-1 列;在我知道其他 N-1 列之后计算一列。
在将数据集附加到数据库之前,我正在使用numpy.fromfile()
将数据集的块读入内存。理想情况下,我想将数据粘贴到数据库中,然后计算最后一列,最后通过 usingTable.modifyColumn()
完成操作。
我考虑过追加numpy.zeros((len(new_data), N))
到表中,然后使用Table.modifyColumns()
来填充新数据,但我希望有人知道一种很好的方法来避免为我需要追加的每个块生成大量空数据。