这是我的用例(我认为这是相当典型的):
我有一堆异构数据,可以很容易地以表格的形式进行转换。根据应用于一列或多列的条件,我选择不同的行。将此称为 select_table
我还有一堆与某些列相关的二进制数据。
我想根据应用于我的 select_table 的条件有效地提取此二进制数据,并轻松维护 select_table 中行和列之间的链接。
理想情况下,我想要一个接受二进制(对象)数据的 frame_table,它允许我使用我的 select_table 透明地提取二进制数据(就像我对常规数据类型所做的那样)。但是,我无法将带有对象列的数据框保存为 frame_tables。
现在我有两个熊猫数据框。一个是 select_table,另一个将二进制数据作为对象存储在适当的列中。这迫使我一次将整个二进制数据表加载到内存中,然后根据从 select_table 返回的行标识进行选择。
我已将二进制表保存在单独的 hdf5 文件中,并使用我的 select_table 中的行索引从磁盘中提取所需的数据块。
我的问题:在 Pandas 中是否有适当的方法来处理这个用例?
谢谢!