22

我需要在 wstring 和 string 之间进行转换。我发现,使用 codecvt facet 应该可以解决问题,但它似乎不适用于 utf-8 语言环境。

我的想法是,当我将 utf-8 编码文件读取为字符时,一个 utf-8 字符被读入两个普通字符(这就是 utf-8 的工作原理)。我想从我在代码中使用的库的 wstring 表示创建这个 utf-8 字符串。

有人知道怎么做吗?

我已经尝试过了:

  locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"čřžýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;  

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

对于 cs_CZ.utf-8 语言环境返回“失败”,并且对于 cs_CZ.iso8859-2 语言环境正常工作。

4

6 回答 6

88

下面的代码可能会对您有所帮助:)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}
于 2012-10-15T21:00:03.947 回答
6

你的平台是什么?请注意,Windows 不支持 UTF-8 语言环境,因此这可以解释您失败的原因。

要以依赖于平台的方式完成此操作,您可以在 Windows 上使用MultiByteToWideChar / WideCharToMultiByte ,在 Linux上使用iconv 。您可能可以使用一些增强魔法以独立于平台的方式完成此操作,但我自己没有尝试过,所以我无法添加此选项。

于 2010-12-05T17:51:56.197 回答
2

您可以使用 boost 的 utf_to_utf 转换器来获取 char 格式以存储在 std::string 中。

std::string myresult = boost::locale::conv::utf_to_utf<char>(my_wstring);
于 2019-02-16T00:33:33.183 回答
-1

locale 所做的是它为程序提供有关外部编码的信息,但假设内部编码没有改变。如果你想输出 UTF-8,你需要从wchar_tnot from 开始char*

您可以做的是将其作为原始数据(而不是字符串)输出,如果系统区域设置为 UTF-8,则应正确解释它。

另外,在使用(w)cout//时(w)cerr(w)cin您需要在流中注入语言环境。

于 2010-12-05T13:23:48.523 回答
-2

Lexertl有一个迭代器,可以让你这样做:

std::string str;
str.assign(
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.begin()),
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.end()));
于 2012-07-26T22:54:56.450 回答
-10

C++ 不知道 Unicode。UnicodeString使用 ICU ( class ) 或 Qt ( QStringclass )等外部库,它们都支持 Unicode,包括 UTF-8。

于 2010-12-05T13:34:23.247 回答