79

是否可以以独立于平台的方式将 std::string 中的 UTF8 字符串转换为 std::wstring ,反之亦然?在 Windows 应用程序中,我将使用 MultiByteToWideChar 和 WideCharToMultiByte。但是,代码是为多个操作系统编译的,我仅限于标准 C++ 库。

4

8 回答 8

62

5年前我问过这个问题。当时这个帖子对我很有帮助,我得出了一个结论,然后我继续我的项目。有趣的是,我最近需要类似的东西,与过去的那个项目完全无关。在研究可能的解决方案时,我偶然发现了自己的问题:)

我现在选择的解决方案是基于 C++11 的。康斯坦丁在他的回答中提到的 boost 库现在是标准的一部分。如果我们用新的字符串类型 std::u16string 替换 std::wstring,那么转换将如下所示:

UTF-8 到 UTF-16

std::string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::u16string dest = convert.from_bytes(source);    

UTF-16 到 UTF-8

std::u16string source;
...
std::wstring_convert<std::codecvt_utf8_utf16<char16_t>,char16_t> convert;
std::string dest = convert.to_bytes(source);    

从其他答案中可以看出,有多种方法可以解决这个问题。这就是为什么我避免选择一个接受的答案。

于 2013-02-11T09:47:17.693 回答
25

问题定义明确指出 8 位字符编码为 UTF-8。这使得这是一个微不足道的问题;它所需要的只是从一个 UTF 规范转换为另一个规范。

只需查看这些 Wikipedia 页面上UTF-8UTF-16UTF-32的编码。

原理很简单——通过输入并根据一个 UTF 规范组装一个 32 位 Unicode 代码点,然后根据另一个规范发出代码点。单个代码点不需要翻译,就像任何其他字符编码一样;这就是使这个问题变得简单的原因。

这是到 UTF-8 转换的快速实现,wchar_t反之亦然。它假设输入已经被正确编码 - 古老的说法“垃圾进,垃圾出”在这里适用。我相信验证编码最好作为一个单独的步骤来完成。

std::string wchar_to_UTF8(const wchar_t * in)
{
    std::string out;
    unsigned int codepoint = 0;
    for (in;  *in != 0;  ++in)
    {
        if (*in >= 0xd800 && *in <= 0xdbff)
            codepoint = ((*in - 0xd800) << 10) + 0x10000;
        else
        {
            if (*in >= 0xdc00 && *in <= 0xdfff)
                codepoint |= *in - 0xdc00;
            else
                codepoint = *in;

            if (codepoint <= 0x7f)
                out.append(1, static_cast<char>(codepoint));
            else if (codepoint <= 0x7ff)
            {
                out.append(1, static_cast<char>(0xc0 | ((codepoint >> 6) & 0x1f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            else if (codepoint <= 0xffff)
            {
                out.append(1, static_cast<char>(0xe0 | ((codepoint >> 12) & 0x0f)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            else
            {
                out.append(1, static_cast<char>(0xf0 | ((codepoint >> 18) & 0x07)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 12) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | ((codepoint >> 6) & 0x3f)));
                out.append(1, static_cast<char>(0x80 | (codepoint & 0x3f)));
            }
            codepoint = 0;
        }
    }
    return out;
}

上面的代码适用于 UTF-16 和 UTF-32 输入,只是因为范围是无效的代码点d800dfff它们表明您正在解码 UTF-16。如果您知道这wchar_t是 32 位,那么您可以删除一些代码来优化功能。

std::wstring UTF8_to_wchar(const char * in)
{
    std::wstring out;
    unsigned int codepoint;
    while (*in != 0)
    {
        unsigned char ch = static_cast<unsigned char>(*in);
        if (ch <= 0x7f)
            codepoint = ch;
        else if (ch <= 0xbf)
            codepoint = (codepoint << 6) | (ch & 0x3f);
        else if (ch <= 0xdf)
            codepoint = ch & 0x1f;
        else if (ch <= 0xef)
            codepoint = ch & 0x0f;
        else
            codepoint = ch & 0x07;
        ++in;
        if (((*in & 0xc0) != 0x80) && (codepoint <= 0x10ffff))
        {
            if (sizeof(wchar_t) > 2)
                out.append(1, static_cast<wchar_t>(codepoint));
            else if (codepoint > 0xffff)
            {
                out.append(1, static_cast<wchar_t>(0xd800 + (codepoint >> 10)));
                out.append(1, static_cast<wchar_t>(0xdc00 + (codepoint & 0x03ff)));
            }
            else if (codepoint < 0xd800 || codepoint >= 0xe000)
                out.append(1, static_cast<wchar_t>(codepoint));
        }
    }
    return out;
}

同样,如果您知道这wchar_t是 32 位,您可以从此函数中删除一些代码,但在这种情况下,它不应该有任何区别。该表达式sizeof(wchar_t) > 2在编译时是已知的,因此任何体面的编译器都会识别死代码并将其删除。

于 2008-09-29T14:00:12.337 回答
24

UTF8-CPP:UTF-8 与 C++ 的可移植方式

于 2008-09-29T14:42:30.987 回答
23

您可以utf8_codecvt_facetBoost 序列化库中提取。

它们的用法示例:

  typedef wchar_t ucs4_t;

  std::locale old_locale;
  std::locale utf8_locale(old_locale,new utf8_codecvt_facet<ucs4_t>);

  // Set a New global locale
  std::locale::global(utf8_locale);

  // Send the UCS-4 data out, converting to UTF-8
  {
    std::wofstream ofs("data.ucd");
    ofs.imbue(utf8_locale);
    std::copy(ucs4_data.begin(),ucs4_data.end(),
          std::ostream_iterator<ucs4_t,ucs4_t>(ofs));
  }

  // Read the UTF-8 data back in, converting to UCS-4 on the way in
  std::vector<ucs4_t> from_file;
  {
    std::wifstream ifs("data.ucd");
    ifs.imbue(utf8_locale);
    ucs4_t item = 0;
    while (ifs >> item) from_file.push_back(item);
  }

在 boost 源中查找utf8_codecvt_facet.hpp和文件。utf8_codecvt_facet.cpp

于 2008-09-29T13:36:25.920 回答
13

有几种方法可以做到这一点,但结果取决于stringwstring变量中的字符编码。

如果你知道string是 ASCII,你可以简单地使用wstring's 的迭代器构造函数:

string s = "This is surely ASCII.";
wstring w(s.begin(), s.end());

但是,如果您string有其他编码,则会得到非常糟糕的结果。如果编码是 Unicode,您可以查看ICU 项目,它提供了一组跨平台的库,可以在各种 Unicode 编码之间进行转换。

如果您string在代码页中包含字符,那么 $DEITY 可能会怜悯您的灵魂。

于 2008-09-29T13:44:25.917 回答
2

您可以使用codecvt语言环境方面。定义了一个特定的专业化,codecvt<wchar_t, char, mbstate_t>它可能对您有用,尽管它的行为是系统特定的,并且不保证以任何方式转换为 UTF-8。

于 2008-09-29T12:07:48.160 回答
0

为 utf-8 到 utf-16/utf-32 转换创建了我自己的库 - 但决定为此目的对现有项目进行分支。

https://github.com/tapika/cutf

(源自https://github.com/noct/cutf

API 适用于纯 C 和 C++。

函数原型如下所示:(完整列表见https://github.com/tapika/cutf/blob/master/cutf.h

//
//  Converts utf-8 string to wide version.
//
//  returns target string length.
//
size_t utf8towchar(const char* s, size_t inSize, wchar_t* out, size_t bufSize);

//
//  Converts wide string to utf-8 string.
//
//  returns filled buffer length (not string length)
//
size_t wchartoutf8(const wchar_t* s, size_t inSize, char* out, size_t outsize);

#ifdef __cplusplus

std::wstring utf8towide(const char* s);
std::wstring utf8towide(const std::string& s);
std::string  widetoutf8(const wchar_t* ws);
std::string  widetoutf8(const std::wstring& ws);

#endif

utf转换测试的示例用法/简单测试应用:

#include "cutf.h"

#define ok(statement)                                       \
    if( !(statement) )                                      \
    {                                                       \
        printf("Failed statement: %s\n", #statement);       \
        r = 1;                                              \
    }

int simpleStringTest()
{
    const wchar_t* chineseText = L"主体";
    auto s = widetoutf8(chineseText);
    size_t r = 0;

    printf("simple string test:  ");

    ok( s.length() == 6 );
    uint8_t utf8_array[] = { 0xE4, 0xB8, 0xBB, 0xE4, 0xBD, 0x93 };

    for(int i = 0; i < 6; i++)
        ok(((uint8_t)s[i]) == utf8_array[i]);

    auto ws = utf8towide(s);
    ok(ws.length() == 2);
    ok(ws == chineseText);

    if( r == 0 )
        printf("ok.\n");

    return (int)r;
}

如果这个库不能满足您的需求 - 请随时打开以下链接:

http://utf8everywhere.org/

并在页面末尾向下滚动并选择您喜欢的任何较重的库。

于 2019-06-02T13:09:27.250 回答
-1

我不认为有这样做的便携方式。C++ 不知道其多字节字符的编码。

正如克里斯建议的那样,您最好的选择是使用 codecvt。

于 2008-09-29T12:16:55.597 回答