7

我有 8 个文件。它们中的每一个大约为 1.7 GB。我正在将这些文件读入字节数组,并且该操作足够快。

然后按如下方式读取每个文件:

BufferedReader br=new BufferedReader(new InputStreamReader(new ByteArrayInputStream(data))); 

当使用单核按顺序处理时,大约需要 60 秒才能完成。但是,当将计算分布在 8 个独立的内核上时,每个文件需要的时间远远超过 60 秒。

由于数据都在内存中并且没有执行任何 IO 操作,我假设每个内核处理一个文件应该不超过 60 秒。因此,总共 8 个文件应该在 60 多秒内完成,但事实并非如此。

我是否缺少有关 BufferedReader 行为的信息?或上述代码中使用的任何阅读器。

值得一提的是,我首先使用此代码上传文件:

byte[] content=org.apache.commons.io.FileUtils.readFileToByteArray(new File(filePath));

整个代码如下所示:

For each file
 read the file into a byte[]
 add the byte[] to a list
end For
For each item in the list
 create a thread and pass a byte[] to it
end For
4

2 回答 2

3

您实际上是如何“分配计算”的?是否涉及同步?您是否只是创建 8 个线程来读取 8 个文件?

你在什么平台上运行(linux、windows等)?在将单个进程从核心移动到核心以尝试平衡核心之间的负载之前,我已经从 Windows 调度程序中看到了看似奇怪的行为。这最终导致性能下降,而不仅仅是允许单个内核比其他内核使用得更多。

于 2013-02-27T13:49:41.497 回答
2

你的系统有多少内存?

8 x 1.7GB,+操作系统开销,可能意味着虚拟内存/分页必须发挥作用。这显然比 RAM 慢得多。

我很欣赏您说每个文件都在内存中,但是您实际上有 16GB 的可用 RAM,还是在抽象级别上还有更多的事情发生?

如果上下文切换也必须不断地切换页面,那将解释增加的时间。

于 2013-02-27T13:52:51.223 回答