5

我有一个简单的程序,它使用在命令行上传递给它的一系列语言环境来测试 wchar_t 和 char 之间的转换。它通过打印出语言环境名称和转换失败的字符串来输出失败的转换列表。

我正在使用 clang 和 libc++ 构建它。我的理解是 libc++ 的命名语言环境支持由 OS X 上的 xlocale 库提供。

我看到了一些意想不到的失败,以及一些转换应该失败但没有失败的实例。

这是程序。

#warning call this program like: "locale -a | ./a.out" or pass \
locale names valid for your platform, one per line via standard input

#include <iostream>
#include <codecvt>
#include <locale>
#include <array>

template <class Facet>
class usable_facet : public Facet {
public:
    // FIXME: use inheriting constructors when available
    // using Facet::Facet;
    template <class ...Args>
    usable_facet(Args&& ...args) : Facet(std::forward<Args>(args)...) {}
    ~usable_facet() {}
};

int main() {
    std::array<std::wstring,11> args = {L"a",L"é",L"¤",L"€",L"Да",L"Ψ",L"א",L"আ",L"✈",L"가",L""};

    std::wstring_convert<usable_facet<std::codecvt_utf8<wchar_t>>> u8cvt; // wchar_t uses UCS-4/UTF-32 on this platform

    int convert_failures = 0;
    std::string line;
    while(std::getline(std::cin,line)) {
        if(line.empty())
            continue;

        using codecvt = usable_facet<std::codecvt_byname<wchar_t,char,std::mbstate_t>>;
        std::wstring_convert<codecvt> convert(new codecvt(line));

        for(auto const &s : args) {
            try {
                convert.to_bytes(s);
            } catch (std::range_error &e) {
                convert_failures++;
                std::cout << line << " : " << u8cvt.to_bytes(s) << '\n';
            }
        }
    }

    std::cout << std::string(80,'=') << '\n';
    std::cout << convert_failures << " wstring_convert to_bytes failures.\n";
}

以下是一些正确输出的示例

en_US.ISO8859-1 : €
en_US.US-ASCII : ✈

这是一个不期望的输出示例

en_US.ISO8859-15 : €

欧元字符确实存在于 ISO 8859-15 字符集中,因此这不应该失败。

以下是我期望但未收到的输出示例

en_US.ISO8859-15 : ¤
en_US.US-ASCII : ¤

这是 ISO 8859-1 中存在的货币符号,但在 ISO 8859-15 中已被删除并替换为欧元符号。此转换不应成功,但不会发出错误信号。当进一步检查这个案例时,我发现在这两种情况下,“¤”都被转换为 0xA4,这是“¤”的 ISO 8859-1 表示。

我没有直接使用 xlocale,只是通过 libc++ 间接使用。Mac OS X 上的 xlocale 是否被错误的语言环境定义破坏了?有没有办法解决它?还是我看到的问题是其他原因造成的?

4

2 回答 2

3

我怀疑您遇到了 xlocale 系统的问题。错误报告将不胜感激!

于 2012-02-26T15:53:25.053 回答
-1

我不知道您为什么期望 wchar_t 是 UTF-32,或者您在哪里听说过“OS X 的 wchar_t 是 UTF-32 的约定”。这当然是不正确的。wchar_t 只有 16 位宽。

有关 wchar_t 的更多信息,请参阅http://en.wikipedia.org/wiki/Wide_character

于 2013-02-20T16:53:36.270 回答