这里很大程度上取决于性能对您/您的应用程序的真正关键程度。反过来,这往往取决于您正在处理的文件有多大——如果您正在处理数十或数百千字节的文件,您通常应该只编写可以工作的最简单的代码,而不必太担心它——你能做的任何事情基本上都是即时的,所以优化代码不会真正完成太多。
另一方面,如果您正在处理大量数据——大约几十兆字节或更多,效率上的差异可能会变得相当大。除非您采取相当具体的步骤来绕过它(例如使用read
),否则您的所有读取都将被缓冲——但这并不意味着它们都将具有相同的速度(或者甚至必须非常接近相同的速度)。
例如,让我们尝试快速测试几种不同的方法,这些方法基本上可以完成您所询问的事情:
#include <stdio.h>
#include <iomanip>
#include <iostream>
#include <iterator>
#include <fstream>
#include <time.h>
#include <string>
#include <algorithm>
unsigned count1(FILE *infile, char c) {
int ch;
unsigned count = 0;
while (EOF != (ch=getc(infile)))
if (ch == c)
++count;
return count;
}
unsigned int count2(FILE *infile, char c) {
static char buffer[4096];
int size;
unsigned int count = 0;
while (0 < (size = fread(buffer, 1, sizeof(buffer), infile)))
for (int i=0; i<size; i++)
if (buffer[i] == c)
++count;
return count;
}
unsigned count3(std::istream &infile, char c) {
return std::count(std::istreambuf_iterator<char>(infile),
std::istreambuf_iterator<char>(), c);
}
unsigned count4(std::istream &infile, char c) {
return std::count(std::istream_iterator<char>(infile),
std::istream_iterator<char>(), c);
}
template <class F, class T>
void timer(F f, T &t, std::string const &title) {
unsigned count;
clock_t start = clock();
count = f(t, 'N');
clock_t stop = clock();
std::cout << std::left << std::setw(30) << title << "\tCount: " << count;
std::cout << "\tTime: " << double(stop-start)/CLOCKS_PER_SEC << "\n";
}
int main() {
char const *name = "test input.txt";
FILE *infile=fopen(name, "r");
timer(count1, infile, "ignore");
rewind(infile);
timer(count1, infile, "using getc");
rewind(infile);
timer(count2, infile, "using fread");
fclose(infile);
std::ifstream in2(name);
in2.sync_with_stdio(false);
timer(count3, in2, "ignore");
in2.clear();
in2.seekg(0);
timer(count3, in2, "using streambuf iterators");
in2.clear();
in2.seekg(0);
timer(count4, in2, "using stream iterators");
return 0;
}
我用一个大约 44 兆字节的文件作为输入来运行它。使用 VC++2012 编译时,得到以下结果:
ignore Count: 400000 Time: 2.08
using getc Count: 400000 Time: 2.034
using fread Count: 400000 Time: 0.257
ignore Count: 400000 Time: 0.607
using streambuf iterators Count: 400000 Time: 0.608
using stream iterators Count: 400000 Time: 5.136
使用相同的输入,但使用 g++ 4.7.1 编译:
ignore Count: 400000 Time: 0.359
using getc Count: 400000 Time: 0.339
using fread Count: 400000 Time: 0.243
ignore Count: 400000 Time: 0.697
using streambuf iterators Count: 400000 Time: 0.694
using stream iterators Count: 400000 Time: 1.612
因此,即使所有读取都被缓冲,我们看到 g++ 的变化率约为 8:1,而 VC++ 的变化率约为 20:1。当然,我还没有测试(甚至接近)读取输入的所有可能方式。如果我们测试更多的阅读技巧,我怀疑我们会看到更广泛的时间,但我可能错了。无论我们是否这样做,我们都看到了足够多的变化,至少如果您正在处理大量数据,那么您很可能有理由选择一种技术而不是另一种技术来提高处理速度。