18

在我的 C++ 代码中,我想从文本文件 (*.txt) 中读取并标记每个条目。更具体地说,我希望能够从文件中读取单个单词,例如“格式”、“堆栈”、“杰森”、“欧洲”

我选择使用fstream来执行此任务,但我不知道如何将它的分隔符设置为我想要使用的分隔符(空格、,\n以及连字符甚至撇号,如“麦当劳”中的)。我认为空格\n是默认分隔符,但连字符不是,但我想将它们视为分隔符,以便在解析文件时,我会在“blah blah xxx animal--cat”中得到简单的“blah”、“等等”,“xxx”,“动物”,“猫”。

也就是说,我希望能够从“stack-overflow”、“you're”等中获取两个字符串,并且仍然能够同时保持\n和空格作为分隔符。

4

2 回答 2

24

istream 将“空白”视为分隔符。它使用语言环境来告诉它哪些字符是空格。反过来,语言环境包括对facet字符类型进行分类的 ctype。这样的方面可能看起来像这样:

#include <locale>
#include <iostream>
#include <algorithm>
#include <iterator>
#include <vector>
#include <sstream>

class my_ctype : public
std::ctype<char>
{
    mask my_table[table_size];
public:
    my_ctype(size_t refs = 0)  
        : std::ctype<char>(&my_table[0], false, refs)
    {
        std::copy_n(classic_table(), table_size, my_table);
        my_table['-'] = (mask)space;
        my_table['\''] = (mask)space;
    }
};

还有一个小测试程序来证明它有效:

int main() {
    std::istringstream input("This is some input from McDonald's and Burger-King.");
    std::locale x(std::locale::classic(), new my_ctype);
    input.imbue(x);

    std::copy(std::istream_iterator<std::string>(input),
        std::istream_iterator<std::string>(),
        std::ostream_iterator<std::string>(std::cout, "\n"));

    return 0;
}

结果:

This
is
some
input
from
McDonald
s
and
Burger
King.

istream_iterator<string>用于>>从流中读取单个字符串,因此如果直接使用它们,应该会得到相同的结果。您需要包括的部分是创建语言环境并imbue用于使流使用该语言环境。

于 2012-04-29T22:10:01.770 回答
2

您可以使用

istream::getline(char* buffer, steamsize maxchars, char delim)

虽然这只支持单个分隔符。要进一步拆分不同分隔符上的行,您可以使用

char* strtok(char* inString, const char* delims)  

这需要多个分隔符。当您使用 strtok 时,您只需第一次将缓冲区的地址传递给它 - 之后只需传入一个空值,它就会从它给您的最后一个令牌中为您提供下一个令牌,当没有时返回一个空指针更多的。

编辑:一个具体的实现会是这样的

char buffer[120]; //this size is dependent on what you expect the file to contain
while (!myIstream.eofbit) //I may have forgotten the exact syntax of the end bit
{
    myIstream.getline(buffer, 120); //using default delimiter of \n
    char* tokBuffer;
    tokBuffer = strtok(buffer, "'- ");
    while (tokBuffer != null) {
        cout << "token is: " << tokBuffer << "\n";
        tokBuffer = strtok(null, "'- "); //I don't need to pass in the buffer again because it remembers the first time I called it
    }
}
于 2012-04-29T21:48:57.660 回答