2

这是我的用例(我认为这是相当典型的):

我有一堆异构数据,可以很容易地以表格的形式进行转换。根据应用于一列或多列的条件,我选择不同的行。将此称为 select_table

我还有一堆与某些列相关的二进制数据。

我想根据应用于我的 select_table 的条件有效地提取此二进制数据,并轻松维护 select_table 中行和列之间的链接。

理想情况下,我想要一个接受二进制(对象)数据的 frame_table,它允许我使用我的 select_table 透明地提取二进制数据(就像我对常规数据类型所做的那样)。但是,我无法将带有对象列的数据框保存为 frame_tables。

现在我有两个熊猫数据框。一个是 select_table,另一个将二进制数据作为对象存储在适当的列中。这迫使我一次将整个二进制数据表加载到内存中,然后根据从 select_table 返回的行标识进行选择。

我已将二进制表保存在单独的 hdf5 文件中,并使用我的 select_table 中的行索引从磁盘中提取所需的数据块。

我的问题:在 Pandas 中是否有适当的方法来处理这个用例?

谢谢!

4

1 回答 1

2

听起来与这里的用例非常相似。接近尾声的是我编写的一个脚本,用于将主要数据和二进制数据存储在 HDF5 中并将它们包装在对象中,以便您可以进行“自动”子查询(例如,您先进行主查询,然后再进行子查询附资料)

解决此问题的另一种方法是在您的 select_table 文件中存储对二进制数据的引用,这可能是一个url-like,可能是对另一个文件的文件和节点引用,例如类似/path_to_my_data_file/file.hdf:/node_path_in_hdf5_file

于 2013-11-05T18:31:20.353 回答