我有几个不同的相关数据框(如果需要,有 id 可以加入它们)。但是,我并不总是同时需要它们。
由于它们很大,将它们存储在单独的 HDF 存储中是否有意义?或者当我在同一个文件中处理其他帧时,携带“未使用”帧的成本可以忽略不计?
从理论上讲,如果您可以根据 IO 子系统(不同的主轴、不同的存储系统等)分离您的 HDF 文件,您可以尝试并行读取您的 DF,实际上我会在您的硬件上使用您的数据对其进行测试, ETC。
分离文件的另一个优点 - 如果您从包含多个 DF 的 HDF 存储中删除或显着减小巨大 DF 的大小 - 它的大小将保持不变。如果您有一个单独的文件,您可以简单地删除它并释放未使用的空间
如果它们在另一个文件或同一个文件中,携带未使用的帧的成本是相同的。问问你自己,将这个 sql 表存储在另一个数据库还是同一个数据库中更好。如果它们是相关的,请将它们放在同一个商店中。