0

我有巨大的文本文件——每个文件有 10 GB 大。

现在,我有两根弦"StringNumber1""StringNumber2"

“Stringnumber1”在每个文本文件中只出现一次,并且"StringNumber2"总是在之后"StringNumber1"(尽管在文本文件中可能出现超过 1 次"StringNumber2")。

我想提取每个文件中出现的所有文本,从“StringNumber1”的匹配开始,直到匹配“StringNumber1”"StringNumber2"之后立即出现的那个出现(这些出现之间的内容"StringNumber1""StringNumber2"可能是几个字节到许多千兆字节)...

如何使用最少的 RAM 提取此类内容?我想在 Java 中做到这一点。

4

2 回答 2

1

要最大限度地减少 RAM 使用,请将数据复制到另一个文件。当你看到第一个字符串时开始一个新文件,当你看到第二个字符串时停止。这意味着您的堆使用量很小(几 MB)且恒定(无论复制的数据量如何)

于 2013-01-12T10:34:51.780 回答
1

只是使用BufferedReader还不够好吗?好吧,我从来没有遇到过读取非常大的文件的问题。使用此方法时,您是否遇到某种错误?

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;

public class Read {

    /**
     * @param args
     * @throws IOException
     */
    public static void main(String[] args) throws IOException {
        BufferedReader br = new BufferedReader(new FileReader("someFile"));
        try {
            String line = br.readLine();
            while (line != null) {
                if(line.contains("String 1")) {
                    // ...
                } else if (line.contains("String 2")) {
                    // ...
                }               
                line = br.readLine();
            }       
        } finally {
            br.close();
        }
    }
}
于 2013-01-12T10:45:30.533 回答