我有大量(> 1000 个)文件,每个大约 20MB,它们代表以简单二进制格式保存的连续时间序列数据,因此如果我直接将它们全部连接起来,我可以恢复我的完整时间序列。
我想在 python 中虚拟地做到这一点,通过使用 memmap 来寻址每个文件,然后将它们全部连接到一个大的 memmap 中。
搜索 SO 表明 np.concatenate 会将它们加载到内存中,这是我做不到的。这里的问题似乎部分回答了它,但那里的答案假设我知道我的文件在连接之前有多大,这不一定是真的。
那么,有没有一种在事先不知道它们有多大的情况下连接 memmap 的通用方法?
编辑:有人指出,链接的问题实际上在磁盘上创建了一个连接文件。这不是我想要的。