90

最近有人要求我编写一个函数,将二进制文件读入std::vector<BYTE>where BYTEis an unsigned char. 很快我就得到了这样的东西:

#include <fstream>
#include <vector>
typedef unsigned char BYTE;

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::streampos fileSize;
    std::ifstream file(filename, std::ios::binary);

    // get its size:
    file.seekg(0, std::ios::end);
    fileSize = file.tellg();
    file.seekg(0, std::ios::beg);

    // read the data:
    std::vector<BYTE> fileData(fileSize);
    file.read((char*) &fileData[0], fileSize);
    return fileData;
}

这似乎是不必要的复杂,char*而且我在调用时被迫使用的显式转换file.read并没有让我感觉更好。


另一种选择是使用std::istreambuf_iterator

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::ifstream file(filename, std::ios::binary);

    // read the data:
    return std::vector<BYTE>((std::istreambuf_iterator<char>(file)),
                              std::istreambuf_iterator<char>());
}

这非常简单和简短,但std::istreambuf_iterator<char>即使在阅读std::vector<unsigned char>.


最后一个似乎非常简单的选项是使用std::basic_ifstream<BYTE>,它明确地表达了“我想要一个输入文件流并且我想用它来读取BYTEs”

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::basic_ifstream<BYTE> file(filename, std::ios::binary);

    // read the data:
    return std::vector<BYTE>((std::istreambuf_iterator<BYTE>(file)),
                              std::istreambuf_iterator<BYTE>());
}

但我不确定basic_ifstream在这种情况下是否是一个合适的选择。

将二进制文件读入的最佳方法是vector什么?我还想知道“幕后”发生了什么以及我可能遇到的可能问题(除了流没有正确打开,这可以通过简单的is_open检查来避免)。

有什么好的理由让人们更愿意在这里使用std::istreambuf_iterator吗?
(我能看到的唯一优点是简单)

4

5 回答 5

56

在测试性能时,我会包括一个测试用例:

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::ifstream file(filename, std::ios::binary);

    // Stop eating new lines in binary mode!!!
    file.unsetf(std::ios::skipws);

    // get its size:
    std::streampos fileSize;

    file.seekg(0, std::ios::end);
    fileSize = file.tellg();
    file.seekg(0, std::ios::beg);

    // reserve capacity
    std::vector<BYTE> vec;
    vec.reserve(fileSize);

    // read the data:
    vec.insert(vec.begin(),
               std::istream_iterator<BYTE>(file),
               std::istream_iterator<BYTE>());

    return vec;
}

我的想法是方法 1 的构造函数触摸 中的元素vector,然后read再次触摸每个元素。

方法 2 和方法 3 看起来最有希望,但可能会遭受一个或多个resize's。因此reserve在阅读或插入之前的原因。

我还会测试std::copy

...
std::vector<byte> vec;
vec.reserve(fileSize);

std::copy(std::istream_iterator<BYTE>(file),
          std::istream_iterator<BYTE>(),
          std::back_inserter(vec));

最后,我认为最好的解决方案将避免operator >>istream_iterator以及operator >>尝试解释二进制数据的所有开销和好处)。但我不知道使用什么可以让您直接将数据复制到向量中。

最后,我对二进制数据的测试显示ios::binary没有被兑现。noskipws因此from的原因<iomanip>

于 2014-02-15T20:06:39.160 回答
26
std::ifstream stream("mona-lisa.raw", std::ios::in | std::ios::binary);
std::vector<uint8_t> contents((std::istreambuf_iterator<char>(stream)), std::istreambuf_iterator<char>());

for(auto i: contents) {
    int value = i;
    std::cout << "data: " << value << std::endl;
}

std::cout << "file size: " << contents.size() << std::endl;
于 2016-04-16T08:11:03.583 回答
7

由于您要将整个文件加载到内存中,因此最佳版本是将文件映射到内存中。这是因为内核无论如何都会将文件加载到内核页面缓存中,并且通过映射文件,您只需将缓存中的这些页面公开到您的进程中。也称为零拷贝。

当您使用std::vector<>它时,它会将数据从内核页面缓存复制到std::vector<>其中,当您只想读取文件时,这是不必要的。

此外,当将两个输入迭代器传递给std::vector<>它时,它会在读取时增加其缓冲区,因为它不知道文件大小。当std::vector<>首先调整到文件大小时,它不必要地将其内容归零,因为无论如何它都会被文件数据覆盖。这两种方法在空间和时间方面都是次优的。

于 2013-02-28T15:05:33.777 回答
3

我会认为第一种方法,使用大小和使用stream::read()将是最有效的。转换为的“成本”char *很可能为零 - 这种类型的转换只是告诉编译器“嘿,我知道你认为这是一种不同的类型,但我真的想要这种类型......”,并且不添加任何额外的指令 - 如果您想确认这一点,请尝试将文件读入 char 数组,并比较实际的汇编代码。除了一些额外的工作来确定向量内缓冲区的地址之外,应该没有任何区别。

与往常一样,确定在您的情况下什么是最有效的唯一方法是测量它。“在网上问”不是证据。

于 2013-02-28T15:06:55.970 回答
0

下面的类扩展了带有二进制文件加载和保存的向量。我已经多次返回这个问题,所以这是我下一次返回的代码 - 以及接下来将寻找二进制文件保存方法的所有其他人。:)

#include <cinttypes>
#include <fstream>
#include <vector>

class FileVector : public std::vector<uint8_t>
{
    public:

        using std::vector<uint8_t>::vector;

        void loadFromFile(const char *filename)
        {
            std::ifstream file(filename, std::ios::in | std::ios::binary);
            insert(begin(),
                std::istream_iterator<uint8_t>(file),
                std::istream_iterator<uint8_t>());
        }

        void saveTofile(const char *filename) const
        {
            std::ofstream file(filename, std::ios::out | std::ios::binary);
            file.write((const char *) data(), size());
            file.close();
        }
};

注意:对于负载优化,请考虑确定文件大小并预先分配所需空间,如此处其他评论中所述。

于 2022-01-05T10:52:40.897 回答