c++ - 用于 Linux 中 UTF-8 文档的 strtok

Question

我正在使用 strtok 来标记 UTF-8 文本。它在 Ubuntu 32 位中正常工作，但在 Ubuntu 64 位中它无法标记某些单词，例如“bölen”。strtok 认为有两个词：“b”和“�len”。我的代码示例如下。

我想知道如何在 64 位 Linux 中解决该问题，为什么它在 32 位 Linux 中可以正常工作？

char* str = const_cast<char*>(content.c_str());
char * tokenizedWord;
tokenizedWord = strtok(str, " !'^+%&/\()=?_-*.,;:<>|´`~¨}][{#");

EDIT1 两个操作系统的语言环境都相同：

LANG=en_US.UTF-8
LANGUAGE=
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

EDIT2 我正在使用以下函数来初始化内容：

content = fileImport(path+ "/" + fileName);


string fileImport(string filePath) {
string line, content;
ifstream myfile(filePath.c_str());
if (myfile.is_open()) {
    while (myfile.good()) {
        getline(myfile, line);
        content.append(line);
    }
    myfile.close();
} else
    fprintf(stderr, "\nFile is cant read\n");
return content;

}

score -1 · Accepted Answer

-1

我使用了 Boost Tokenizer。它工作正常。您可以从该链接中找到信息。

于 2013-07-22T06:42:43.787 回答

c++ - 用于 Linux 中 UTF-8 文档的 strtok

1 回答 1

Related

Reference