c++ - 在 Mac 中使用 C++ 读取 UTF-8 数据不起作用

Question

尽管我的 C++ 经验已大大减少，但我正在尝试帮助 C++ 程序员让他的库在 Mac 上运行。目前，问题似乎仅与语言环境/编码有关。

为了创建一个最小的工作示例，我测试了以下代码，它将一行 UTF-8 字符读取为一个宽字符串 (wstring)，然后遍历该字符串并打印每个字符。

虽然它在 Linux 机器上完美运行，所有字符都打印在不同的行中，但在使用 Mac 机器时，我每行打印每个字节（而不是每个字符）。

代码是：

#include <sstream>
#include <iostream> 
#include <string>
#include <boost/locale.hpp>

using namespace std;

int main() {
    std::ios_base::sync_with_stdio(false);
    boost::locale::generator gen;
    locale mylocale = gen("pt_PT.UTF-8");
    locale::global(mylocale);

    wstring userInput;
    getline(wcin, userInput);

    wcerr << "Size of string is " << userInput.length() << endl;

    for (int i = 0; i < userInput.length(); ++i) {
        wcerr << userInput.at(i) << endl;
    }
    return 0;
}

我的测试字符串是一个愚蠢的葡萄牙语句子：

O coração é um órgão frágil.

我正在尝试使用 Boost_locale，因为有人告诉我这是让 unicode 在 Mac 上正常工作的方法，但我很高兴有一个仅使用 C++ 标准库的解决方案。

编辑：

以下代码适用于 Mac。由于包含 codecvt，它无法在我的 Linux 机器上编译，但我可以通过一些 CPP 指令来管理它。

#include <sstream>
#include <iostream> 
#include <fstream>
#include <codecvt>
#include <locale>
#include <string>

using namespace std;

int main() {
    // setting std::local::global seems not to work (??)

    wcin.imbue(std::locale(locale(""), new std::codecvt_utf8<wchar_t>));
    wcerr.imbue(std::locale(locale(""), new std::codecvt_utf8<wchar_t>));

    wstring userInput;
    getline(wcin, userInput);

    wcerr << "Size of string is " << userInput.length() << endl;

    for (int i = 0; i < userInput.length(); ++i) {
        wcerr << userInput.at(i) << endl;
    }
    return 0;
}

score 2 · Accepted Answer

这种行为是由于在 UTF-8 编码中，一个字符（也称为代码点）由一个或多个代码单元表示。

本质上是：

for (int i = 0; i < userInput.length(); ++i)

循环通过代码单元。userInput.length()您可以通过一个大于字符串中字符数的数字来验证该行为。

通过做：

wcerr << userInput.at(i) << endl;

您endl在每个代码单元之后附加一个，从而将属于同一代码点的代码单元分开，从而产生无效字符。

如果你只是输出：

wcerr << userInput << endl;

你会得到你的字符串完好无损。

如果要分别输出每个字符，则必须考虑属于同一代码点的多个代码单元并分别输出。

更新：

wcin默认情况下不转换为代码点。您需要明确说明输入的编码并进行转换。这基本上就是以下代码的作用。与您的示例的唯一主要区别是我使用C++11标准库而不是Boost。

#include <codecvt>
#include <iostream>

int main() {

    std::locale::global( std::locale( std::locale(""), new std::codecvt_utf8<wchar_t> ) );

    std::wcin.imbue( std::locale() );
    std::wcout.imbue( std::locale() );
    std::wcerr.imbue( std::locale() );

    std::wstring user_input;
    std::wcin >> user_input;

    for( int i = 0; i < user_input.length(); ++i ) {
        std::wcout << user_input[i] << std::endl;
    }

    // Converting characters to uppercase
    const std::ctype<wchar_t>& f = std::use_facet<std::ctype<wchar_t>>( std::locale() );

    for( int i = 0; i < user_input.length(); ++i ) {
        std::wcout << f.toupper(user_input[i]) << std::endl; // f.tolower() for lowercase
    }

    return 0;
}

PS 要编译它，您需要传递C++11标准标志。

g++ -std=c++11 main.cpp

c++ - 在 Mac 中使用 C++ 读取 UTF-8 数据不起作用

1 回答 1

Related

Reference