9

我目前正在使用JOGL(Java OpenGL 绑定)开发 3D 图形应用程序。简而言之,我有一个巨大的横向二进制文件。由于它的大小,我必须在运行时流式传输地形块。因此,我们明确地看到了随机访问问题。我已经完成了第一个(也是肮脏的:))实现(也许它是多线程的),我正在使用一种愚蠢的方法......这是它的初始化:

dataInputStream = new DataInputStream(new BufferedInputStream(fileInputStream,4 * 1024);
dataInputStream.mark(dataInputStream.available());

当我需要读取(流式传输)特殊块时(我已经知道它在文件中的“偏移量”),我正在执行以下操作(我感到羞耻:)):

dataInputStream.reset();
dataInputStream.skipBytes(offset);
dataInputStream.read(whatever I need...);

由于我没有什么经验,这是我能想到的第一件事 :) 所以,到目前为止,我已经阅读了 3 篇有用且非常有趣的文章(我建议你阅读它们,也许如果你对这个主题感兴趣)

  1. 字节缓冲区和非堆内存- Gregory 先生似乎精通 Java NIO。

  2. Java 提示:如何快速读取文件[http://nadeausoftware.com/articles/2008/02/java_tip_how_read_files_quickly] - 这是一个有趣的基准。

  3. 文章:调整 Java I/O 性能[http://java.sun.com/developer/technicalArticles/Programming/PerfTuning/] - 简单的 Sun 建议,但请向下滚动并查看那里的“随机访问”部分;他们展示了具有自我缓冲改进的 RandomAccessFile (RAF) 的简单实现。

Gregory 先生在他的文章末尾提供了几个 *.java 文件。其中之一是 FileChannel + ByteBuffer + Mapping (FBM) 和 RAF 之间的基准测试。他说,与 RAF 相比,他注意到使用 FBM 时的速度提高了 4 倍。我在以下条件下运行了这个基准测试:

  1. 偏移量(例如访问位置)是随机生成的(在文件范围内,例如 0 - file.length());
  2. 文件大小为220MB;
  3. 1 000 000 次访问(75% 读取和 25% 写入)

结果令人震惊:

~ 英国皇家空军 28 秒! FBM 约 0.2 秒!

然而,他在这个基准测试中的 RAF 实现没有自缓冲(第 3 篇文章讲述了一个),所以我猜是“RandomAccessFile.seek”方法调用,导致性能如此下降。

好的,在我学到了所有这些东西之后,现在有 1 个问题和 1 个困境 :)

问题:当我们使用“FileChannel.map”映射文件时,Java 是否会将整个文件内容复制到 MappedByteBuffer 中?还是只是模仿它?如果是副本,那么使用FBM的方式不适合我的情况,是吗?

困境:取决于您对问题的回答...

  1. 如果映射复制一个文件,那么我似乎只有两种可能的解决方案:RAF + 自缓冲(第 3 篇文章中的那个)或利用 FileChannel 中的位置(不使用映射)......哪一个会会更好?

  2. 如果映射不复制文件,那么我有 3 个选项:前两个选项和FBM 本身

编辑:这是另一个问题。你们中的一些人说映射不会将文件复制到 MappedByteBuffer 中。好吧,那为什么我不能映射 1GB 文件,我收到“映射失败”消息...

PS我想收到一个完整的答案和建议,因为我无法在互联网上找到关于这个主题的一致信息。

谢谢 :)

4

3 回答 3

3

不,数据没有缓冲。MappedByteBuffer 使用指针引用数据。换句话说,数据没有被复制,它只是简单地映射到物理内存中。如果您还没有,请参阅API 文档。

内存映射文件是一段虚拟内存,已被分配与文件或类似文件资源的某些部分的直接逐字节相关性。此资源通常是物理上存在于磁盘上的文件,但也可以是设备、共享内存对象或操作系统可以通过文件描述符引用的其他资源。一旦出现,文件和内存空间之间的这种相关性允许应用程序将映射部分视为主内存。

资料来源:维基百科

如果您要非常频繁地读取数据,最好至少缓存其中的一些数据。

于 2011-01-18T21:15:01.000 回答
2

对于一个 220 MB 的文件,我会将整个内存映射到虚拟内存中。之所以FBM如此之快,是因为它实际上并没有将数据读入内存,它只是让它可用。

注意:当您运行测试时,您需要比较类似的,即当文件在操作系统缓存中时,无论您如何执行它都会快得多。您需要多次重复测试以获得可重现的结果。

于 2011-01-18T20:35:27.823 回答
1

您是否注意到如果您运行一个程序,然后关闭它,然后再次运行它,它的启动速度比第二次要快得多?发生这种情况是因为操作系统已经缓存了在第一次运行时访问的文件部分,并且不需要为它们访问磁盘。内存映射文件本质上允许程序访问这些缓冲区,从而最大限度地减少读取文件时的复制。请注意,内存映射文件不会导致它被整个读入内存;您读取的点点滴滴都是从磁盘按需读取的。如果操作系统确定内存不足,它可能会决定从内存中释放映射文件的某些部分,并将它们留在磁盘上。

编辑:您想要的是FileInputStream.getChannel().map(),然后将其调整为InputStream,然后将其连接到DataInputStream.

于 2011-01-19T22:02:43.527 回答