3

我正在做与解析大量文本文件相关的工作,并且正在测试要使用的输入法。

使用 c++ std::ifstreams 与 c FILE 没有太大区别,

根据zlib的文档,它支持解压文件,并且会在不解压的情况下读取文件。

我看到从使用非 zlib 的 12 秒到使用 zlib.h 的 4 分钟以上的差异

我已经测试过多次运行,所以它不是磁盘缓存问题。

我是否以某种错误的方式使用 zlib?

谢谢

#include <zlib.h>
#include <cstdio>
#include <cstdlib>
#include <fstream>
#define LENS 1000000


size_t fg(const char *fname){
  fprintf(stderr,"\t-> using fgets\n");
  FILE *fp =fopen(fname,"r");
  size_t nLines =0;
  char *buffer = new char[LENS];
  while(NULL!=fgets(buffer,LENS,fp))
    nLines++;

  fprintf(stderr,"%lu\n",nLines);
  return nLines;
}

size_t is(const char *fname){
  fprintf(stderr,"\t-> using ifstream\n");
  std::ifstream is(fname,std::ios::in);
  size_t nLines =0;
  char *buffer = new char[LENS];
  while(is. getline(buffer,LENS))
    nLines++;

  fprintf(stderr,"%lu\n",nLines);
  return nLines;
}

size_t iz(const char *fname){
  fprintf(stderr,"\t-> using zlib\n");
  gzFile fp =gzopen(fname,"r");
  size_t nLines =0;
  char *buffer = new char[LENS];
  while(0!=gzgets(fp,buffer,LENS))
    nLines++;

  fprintf(stderr,"%lu\n",nLines);
  return nLines;
}

int main(int argc,char**argv){
  if(atoi(argv[2])==0)
    fg(argv[1]);
  if(atoi(argv[2])==1)
    is(argv[1]);
  if(atoi(argv[2])==2)
    iz(argv[1]);

}
4

1 回答 1

3

我猜你正在使用 zlib-1.2.3。在这个版本中,gzgets() 实际上是为每个字节调用 gzread()。以这种方式调用 gzread() 开销很大。您可以比较调用 gzread(gzfp, buffer, 4096) 一次和调用 gzread(gzfp, buffer, 1) 4096 次的 CPU 时间。结果是一样的,但是 CPU 时间却大不相同。

你应该做的是为 zlib 实现缓冲 I/O,通过一个 gzread() 调用读取大约 4KB 的数据块(就像 fread() 对 read() 所做的那样)。最新的 zlib-1.2.5 据说在 gzread/gzgetc/.. 上有显着改进。你也可以试试。由于它是最近发布的,我没有亲自尝试过。

编辑:

我刚才试过zlib-1.2.5。1.2.5 中的 gzgetc 和 gzgets 比 1.2.3 中的快得多。

于 2010-05-14T21:09:35.437 回答