pandas - 处理异构数据和大型“二进制”数据

Question

这是我的用例（我认为这是相当典型的）：

我有一堆异构数据，可以很容易地以表格的形式进行转换。根据应用于一列或多列的条件，我选择不同的行。将此称为 select_table

我还有一堆与某些列相关的二进制数据。

我想根据应用于我的 select_table 的条件有效地提取此二进制数据，并轻松维护 select_table 中行和列之间的链接。

理想情况下，我想要一个接受二进制（对象）数据的 frame_table，它允许我使用我的 select_table 透明地提取二进制数据（就像我对常规数据类型所做的那样）。但是，我无法将带有对象列的数据框保存为 frame_tables。

现在我有两个熊猫数据框。一个是 select_table，另一个将二进制数据作为对象存储在适当的列中。这迫使我一次将整个二进制数据表加载到内存中，然后根据从 select_table 返回的行标识进行选择。

我已将二进制表保存在单独的 hdf5 文件中，并使用我的 select_table 中的行索引从磁盘中提取所需的数据块。

我的问题：在 Pandas 中是否有适当的方法来处理这个用例？

谢谢！

score 2 · Accepted Answer

听起来与这里的用例非常相似。接近尾声的是我编写的一个脚本，用于将主要数据和二进制数据存储在 HDF5 中并将它们包装在对象中，以便您可以进行“自动”子查询（例如，您先进行主查询，然后再进行子查询附资料）

解决此问题的另一种方法是在您的 select_table 文件中存储对二进制数据的引用，这可能是一个url-like，可能是对另一个文件的文件和节点引用，例如类似/path_to_my_data_file/file.hdf:/node_path_in_hdf5_file

1 回答 1