13

我正在做一些非常简单的事情:将整个文本文件从磁盘读取到std::string. 我当前的代码基本上是这样做的:

std::ifstream f(filename);
return std::string(std::istreambuf_iterator<char>(f), std::istreambuf_iterator<char>());

这不太可能对程序的性能产生任何影响,但我仍然很好奇这是否是一种缓慢的方式。

字符串的构造是否存在涉及大量重新分配的风险?在读取之前使用seekg()/tellg()来计算文件的大小和字符串中的那么多空间会更好(即更快)吗?reserve()

4

3 回答 3

37

我对你的实现(1)、我的(2)和我在 stackoverflow 上找到的另外两个(3 和 4)进行了基准测试。

结果(平均 100 次运行;使用 gettimeofday 计时,文件为 40 段 lorem ipsum):

  • 读取文件 1:764
  • 读取文件2:104
  • 读取文件 3:129
  • 读取文件4:402

实现:

string readFile1(const string &fileName)
{
    ifstream f(fileName.c_str());
    return string(std::istreambuf_iterator<char>(f),
            std::istreambuf_iterator<char>());
}

string readFile2(const string &fileName)
{
    ifstream ifs(fileName.c_str(), ios::in | ios::binary | ios::ate);

    ifstream::pos_type fileSize = ifs.tellg();
    ifs.seekg(0, ios::beg);

    vector<char> bytes(fileSize);
    ifs.read(&bytes[0], fileSize);

    return string(&bytes[0], fileSize);
}

string readFile3(const string &fileName)
{
    string data;
    ifstream in(fileName.c_str());
    getline(in, data, string::traits_type::to_char_type(
                      string::traits_type::eof()));
    return data;
}

string readFile4(const std::string& filename)
{
    ifstream file(filename.c_str(), ios::in | ios::binary | ios::ate);

    string data;
    data.reserve(file.tellg());
    file.seekg(0, ios::beg);
    data.append(istreambuf_iterator<char>(file.rdbuf()),
                istreambuf_iterator<char>());
    return data;
}
于 2009-02-08T00:22:04.663 回答
2

如果您尝试这样做,性能会怎样?而不是问“哪种方式更快?” 你可以想“嘿,我可以测量这个。”

设置一个循环,读取给定大小的文件 10000 次或其他内容,并对其计时。然后用reserve()方法和时间来做。尝试几种不同的文件大小(从小到大),看看你会得到什么。

于 2009-02-07T21:15:56.240 回答
0

老实说,我不确定,但从我读过的内容来看,这真的取决于迭代器。在来自文件流的迭代器的情况下,它可能没有内置方法来测量开始和结束迭代器之间的文件长度。

如果这是正确的,它将以类似于每次空间不足时将其内部存储大小加倍的方式运行。在这种情况下,对于文件中的 n 个字符,除了将字符复制到字符串中之外,还会有 Log[n,2] 内存分配和内存删除,以及 n*Log[n,2] 个单独的字符副本。

正如格雷格指出的那样,您不妨对其进行测试。正如他所说,尝试两种技术的各种文件大小。此外,您可以使用以下内容来获得一些定量时间。

#include<time.h>
#include<iostream>

...

clock_t time1=0, time2=0, delta;
float seconds;

time1=clock();

//Put code to be timed here

time2=clock();

delta= time2-time1;

seconds =(((float)delta)/((float)CLOCKS_PER_SEC));

std::cout<<"The operation took: "<<seconds<<" seconds."<<std::endl;

...

这应该可以解决时间问题。

于 2009-02-07T21:29:53.310 回答