1

我有一个自定义文件类型,它在部分中实现,标题显示文件中每个部分的偏移量和长度。

目前,每当我想与文件交互时,我必须预先加载和解析整个内容,或者只选择我需要的部分并仅加载它们。

我想做的是实现一种混合方法,其中每个部分都按需加载。

然而,这样做似乎有很多潜在的缺点,因为文件系统句柄打开的时间比我想要的要长,而且我会产生额外的代码复杂性。

这种事情有什么标准模式吗?看来我的选择是:

  1. 只需加载整个文件并停止抱怨循环/内存浪费
  2. 将整个文件作为原始字节加载到内存中,然后从内存缓冲区而不是磁盘满足对卸载部分的任何请求。这节省了我解析不需要的部分的成本并且需要更少的内存(因为磁盘表示比它周围的对象模型更紧凑),但仍然意味着我浪费了我永远不会加载的部分的内存。
  3. 立即加载我需要的任何部分并关闭文件,但保留文件的源位置。然后,如果请求另一个部分,请重新打开文件并加载数据。在这种情况下,如果基础文件被更改,我可能会得到奇怪的结果。
  4. 与上述相同,但保持文件句柄打开(可能允许读取共享)。
  5. 使用 Memory-Mapped IO 加载文件并打开文件的视图。

有什么想法吗

4

2 回答 2

1

如果文件比较小,mmap-ing 整个文件就足够了。如果文件很大,您可以打开一个 mmap 视图,只需在文件周围移动它并调整它的大小以在需要时查看每个部分。

于 2009-07-30T01:42:05.590 回答
1

如果可能,如果您有随机访问模式,则对整个文件进行 MMAP 处理通常是最容易的事情。这样,您只需将加载/卸载问题委托给操作系统,您就可以免费获得 1 和 2。

如果你有非常特殊的访问模式,你甚至可以使用类似 fadvise() 的东西(我不是 Win32 的确切等价物)来告诉操作系统你的访问意图。

如果您的文件超过 2GB,您可以使用 64 位方式或按需使用 mmap() 文件。

于 2009-07-29T15:24:16.447 回答