4

我有一个大约 4MB 的文件,该文件是一个仅包含普通键盘字符的 ascii 文件。我尝试了 java.io 包中的许多类来将文件内容读取为字符串。逐个字符读取它们(使用 FileReader 和 BufferedReader)大约需要 40 秒,使用 java.nio 包(FileChannel 和 ByteBuffer)读取内容大约需要 25 秒。据我所知,这是更长的时间。有人知道有什么方法可以将这个时间消耗减少到大约 10 秒吗?甚至像使用 C 创建文件阅读器和从 java 调用这样的解决方案也可以。我使用下面的代码片段在 22 秒内读取了 4 MB 文件-

public static String getContents(File file) {
    try {
        if (!file.exists() && !file.isFile()) {
            return null;
        }
        FileInputStream in = new FileInputStream(file);
        FileChannel ch = in.getChannel();
        ByteBuffer buf = ByteBuffer.allocateDirect(512);            
        Charset cs = Charset.forName("ASCII");          
        StringBuilder sb = new StringBuilder();
        int rd;
        while ((rd = ch.read(buf)) != -1) {
            buf.rewind();
            CharBuffer chbuf = cs.decode(buf);
            for (int i = 0; i < chbuf.length(); i++) {
                sb.append(chbuf.get());
            }
            buf.clear();
        }
        String contents = sb.toString();
        System.out.println("File Contents:\n"+contents);
        return contents;
    } catch (Exception exception) {
        System.out.println("Error:\n" + exception.getMessage());
        return null;
    }
}
4

3 回答 3

5

我无法想象你的硬件可能是什么,但对于一个 4 MB 的文件,它应该花费不到 0.1 秒的时间。

一次读取文件的一种快速方法是将其读入一个字节[]

public static String readFileAsString(File file) {
    try {
        DataInputStream in = new DataInputStream(FileInputStream(file));
        byte[] bytes = new byte[(int) file.length()];
        in.readFully(bytes);
        in.close();
        return new String(bytes, 0); // ASCII text only.

    } catch (FileNotFoundException e) {
        return null;
    } catch (IOException e) {
        System.out.println("Error:\n" + e.getMessage());
        return null;
    }
}

public static void main(String... args) throws IOException {
    File tmp = File.createTempFile("deleteme", "txt");
    tmp.deleteOnExit();

    byte[] bytes = new byte[4 * 1024 * 1024];
    Arrays.fill(bytes, (byte) 'a');
    FileOutputStream fos = new FileOutputStream(tmp);
    fos.write(bytes);
    fos.close();

    long start = System.nanoTime();
    String s = readFileAsString(tmp);
    long time = System.nanoTime() - start;
    System.out.printf("Took %.3f seconds to read a file with %,d bytes%n",
            time / 1e9, s.length());
}

印刷

Took 0.026 seconds to read a file with 4,194,304 bytes

如果您想更快地读取文件,我建议使用内存映射文件,因为它需要不到 10 毫秒的时间,但在这种情况下,这太过分了。

于 2012-04-10T11:09:58.780 回答
2
  1. 在这里使用直接字节缓冲区没有任何好处。
  2. 您的 512 缓冲区大小太小。至少使用 4096。
  3. 在这里使用 NIO 并没有真正的好处。由于这是文本,我会使用 BufferedReader。
  4. 您将整个文件读入内存的基本目标是有缺陷的。它不会扩展,并且已经使用了过多的内存。您应该设计一种策略来一次处理一行文件。
于 2012-04-11T00:36:51.077 回答
1

您可以增加缓冲区大小,例如增加到 2048 或 4096 字节。

不要使用本机 API,因为您不会获得诸如编译时类型检查之类的 Java 功能。

于 2012-04-10T11:10:56.720 回答