java - 如何在多线程模式下读取文件？

Question

我目前有一个程序可以在单线程模式下读取文件（非常大）并创建搜索索引，但是在单线程环境中索引需要很长时间。

现在我正试图让它在多线程模式下工作，但不确定实现这一目标的最佳方法。

我的主程序创建一个缓冲读取器并将实例传递给线程，线程使用缓冲读取器实例读取文件。

我不认为这按预期工作，而是每个线程一次又一次地读取同一行。

有没有办法让线程只读取其他线程未读取的行？我需要拆分文件吗？有没有办法在不拆分文件的情况下实现这一点？

示例主程序：

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.ArrayList;

public class TestMTFile {
    public static void main(String args[]) {
        BufferedReader reader = null;
        ArrayList<Thread> threads = new ArrayList<Thread>();
        try {
            reader = new BufferedReader(new FileReader(
                    "test.tsv"));
        } catch (FileNotFoundException e1) {
            e1.printStackTrace();
        }
        for (int i = 0; i <= 10; i++) {
            Runnable task = new ReadFileMT(reader);
            Thread worker = new Thread(task);
            // We can set the name of the thread
            worker.setName(String.valueOf(i));
            // Start the thread, never call method run() direct
            worker.start();
            // Remember the thread for later usage
            threads.add(worker);
        }

        int running = 0;
        int runner1 = 0;
        int runner2 = 0;
        do {
            running = 0;
            for (Thread thread : threads) {
                if (thread.isAlive()) {
                    runner1 = running++;
                }
            }
            if (runner2 != runner1) {
                runner2 = runner1;
                System.out.println("We have " + runner2 + " running threads. ");

            }
        } while (running > 0);

        if (running == 0) {
            System.out.println("Ended");
        }
    }
}

线：

import java.io.BufferedReader;
import java.io.IOException;

public class ReadFileMT implements Runnable {
    BufferedReader bReader = null;

    ReadFileMT(BufferedReader reader) {
        this.bReader = reader;
    }

    public synchronized void run() {
        String line;
        try {
            while ((line = bReader.readLine()) != null) {

                try {
                    System.out.println(line);
                } catch (Exception e) {

                }
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

score 9 · Accepted Answer

您的瓶颈很可能是索引，而不是文件读取。假设您的索引系统支持多个线程，您可能需要一个生产者/消费者设置，其中一个线程读取文件并将每一行推入 BlockingQueue（生产者），多个线程从 BlockingQueue 拉出行并将它们推入索引（消费者）。

score 7 · Accepted Answer

请参阅此线程- 如果您的文件都在同一个磁盘上，那么您不能比使用单个线程读取它们做得更好，尽管一旦您将文件读入主内存，就可以使用多个线程处理它们。

score 3 · Accepted Answer

如果您可以使用 Java 8，则可以使用 Streams API 快速轻松地完成此操作。将文件读入 MappedByteBuffer，它可以非常快速地打开最大 2GB 的文件，然后从缓冲区中读取行（您需要确保 JVM 有足够的额外内存来保存文件）：

package com.objective.stream;

import java.io.BufferedReader;
import java.io.ByteArrayInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.MappedByteBuffer;
import java.nio.channels.FileChannel;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.stream.Stream;

public class StreamsFileProcessor {
    private MappedByteBuffer buffer;

    public static void main(String[] args){
        if (args[0] != null){
            Path myFile = Paths.get(args[0]);
            StreamsFileProcessor proc = new StreamsFileProcessor();
            try {
                proc.process(myFile);
            } catch (IOException e) {
                e.printStackTrace();
            }   
        }
    }

    public void process(Path file) throws IOException {
        readFileIntoBuffer(file);
        getBufferStream().parallel()
            .forEach(this::doIndex);
    }

    private Stream<String> getBufferStream() throws IOException {
        try (BufferedReader reader = new BufferedReader(new InputStreamReader(new ByteArrayInputStream(buffer.array())))){
            return reader.lines();
        }
    }

    private void readFileIntoBuffer(Path file) throws IOException{
        try(FileInputStream fis = new FileInputStream(file.toFile())){
            FileChannel channel = fis.getChannel();
            buffer = channel.map(FileChannel.MapMode.PRIVATE, 0, channel.size());
        }
    }

    private void doIndex(String s){
        // Do whatever I need to do to index the line here
    }
}

score 0 · Accepted Answer

首先，我同意@Zim-Zam 的观点，即文件 IO，而不是索引，可能是速率确定步骤。（所以我不同意@jtahlborn）。取决于索引的复杂程度。

其次，在您的代码中，每个线程都有自己的、独立的BufferedReader. 因此他们都会读取整个文件。一种可能的解决方法是使用他们共享的单个BufferedReader。然后你需要同步BufferedReader.readLine()方法（我认为），因为javadocs对是否BufferedReader是线程安全的保持沉默。而且，由于我认为 IO 是瓶颈，这将成为瓶颈，我怀疑多线程是否会给你带来很多好处。但是试试看，我偶尔会出错。:-)

ps 我同意@jtahlmorn 的观点，即生产者/消费者模式比我分享的 BufferedReader 想法更好，但这对你来说工作量更大。

java - 如何在多线程模式下读取文件？

4 回答 4

Related

Reference