java - java代码从大文件中提取文本部分，仅使用最小RAM

Question

我有巨大的文本文件——每个文件有 10 GB 大。

现在，我有两根弦"StringNumber1"和"StringNumber2"

“Stringnumber1”在每个文本文件中只出现一次，并且"StringNumber2"总是在之后"StringNumber1"（尽管在文本文件中可能出现超过 1 次"StringNumber2"）。

我想提取每个文件中出现的所有文本，从“StringNumber1”的匹配开始，直到匹配“StringNumber1”"StringNumber2"之后立即出现的那个出现（这些出现之间的内容"StringNumber1"和"StringNumber2"可能是几个字节到许多千兆字节)...

如何使用最少的 RAM 提取此类内容？我想在 Java 中做到这一点。

score 1 · Accepted Answer

要最大限度地减少 RAM 使用，请将数据复制到另一个文件。当你看到第一个字符串时开始一个新文件，当你看到第二个字符串时停止。这意味着您的堆使用量很小（几 MB）且恒定（无论复制的数据量如何）

score 1 · Accepted Answer

只是使用BufferedReader还不够好吗？好吧，我从来没有遇到过读取非常大的文件的问题。使用此方法时，您是否遇到某种错误？

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;

public class Read {

    /**
     * @param args
     * @throws IOException
     */
    public static void main(String[] args) throws IOException {
        BufferedReader br = new BufferedReader(new FileReader("someFile"));
        try {
            String line = br.readLine();
            while (line != null) {
                if(line.contains("String 1")) {
                    // ...
                } else if (line.contains("String 2")) {
                    // ...
                }               
                line = br.readLine();
            }       
        } finally {
            br.close();
        }
    }
}

java - java代码从大文件中提取文本部分，仅使用最小RAM

2 回答 2

Related

Reference