2

我已成功读取 tar.gz 格式文件夹中的 pdf 文件。但我遇到了性能问题 - 需要更多时间来打开包含 1000 多个小型 pdf 文件的 tar.gz 文件夹,每个文件大小为 10 - 25 MB。文件夹的总大小为 2GB

如何提高解压文件读取的性能?

FileInputStream fin = new FileInputStream(tarName);
BufferedInputStream in = new BufferedInputStream(fin);
GzipCompressorInputStream gzIn = new GzipCompressorInputStream(in);
TarArchiveInputStream tarIn = new TarArchiveInputStream(gzIn);
TarArchiveInputStream tarIn1 = new TarArchiveInputStream(tarIn);
TarArchiveEntry entry = null;

byte[] buffer = new byte[5024];
int nrBytesRead;

while ((entry = (TarArchiveEntry) tarIn1.getNextEntry()) != null) {
    System.out.println("it finds a file "
                         + entry.getName().toString());
    if (entry.getName().toString().equals(fileName)) {

        while ((nrBytesRead = tarIn1.read(buffer)) > 0) {

            out.write(buffer, 0, nrBytesRead);
        }
        break;
    }
}
4

1 回答 1

1

tar.gz 格式不是为随机访问而设计的。它的目的是当整个包裹将被一次打开。这允许将一系列文件压缩为单个流,通常会提高压缩率,尤其是对于许多小文件。但是,如果您尝试从某个地方仅从中间拉出一个文件,则需要先解压缩该点之前的所有文件。

对于对单个文件的随机访问,您应该考虑使用 zip 格式重新打包。压缩不会那么好,你可以很快地提取出单个文件。在 Java 中,查看ZipFile 类

于 2013-09-18T20:39:52.500 回答