6

如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串?我的 VS2005 项目使用 Unicode 字符集,而 cpp 中的 sqlite 提供

int sqlite3_open(
  const char *filename,   /* Database filename (UTF-8) */
  sqlite3 **ppDb          /* OUT: SQLite db handle */
);
int sqlite3_open16(
  const void *filename,   /* Database filename (UTF-16) */
  sqlite3 **ppDb          /* OUT: SQLite db handle */
);

用于打开文件夹。如何将字符串、CString 或 wstring 转换为 UTF-8 或 UTF-16 字符集?

非常感谢!

4

5 回答 5

7

使用WideCharToMultiByte函数。指定参数CP_UTF8CodePage

CHAR buf[256]; // or whatever
WideCharToMultiByte(
  CP_UTF8, 
  0, 
  StringToConvert, // the string you have
  -1, // length of the string - set -1 to indicate it is null terminated
  buf, // output
  __countof(buf), // size of the buffer in bytes - if you leave it zero the return value is the length required for the output buffer
  NULL,    
  NULL
);

此外,Windows 中 unicode 应用程序的默认编码是 UTF-16LE,因此您可能不需要执行任何翻译,只需使用第二个版本即可sqlite3_open16

于 2008-11-11T08:44:01.070 回答
7

简短的回答:

如果您使用 Unicode 字符串(例如 CString 或 wstring),则无需转换。使用 sqlite3_open16()。您必须确保将 WCHAR 指针(转换为void *. 似乎很蹩脚!即使这个库是跨平台的,我猜他们也可以定义一个取决于平台并且比 a 不友好的宽 char 类型void *) API。例如对于 CString:(void*)(LPCWSTR)strFilename

更长的答案:

您没有要转换为 UTF8 或 UTF16 的 Unicode 字符串。您的程序中有一个使用给定编码表示的 Unicode 字符串:Unicode 本身不是二进制表示。编码说明了 Unicode 代码点(数值)在内存中的表示方式(数字的二进制布局)。UTF8 和 UTF16 是使用最广泛的编码。他们是非常不同的。

当 VS 项目说“Unicode 字符集”时,它实际上意味着“字符被编码为 UTF16”。因此,您可以直接使用 sqlite3_open16()。无需转换。字符存储在 WCHAR 类型(而不是char)中,它占用 16 位(标准 C 类型的后备wchar_t,在 Win32 上占用 16 位。在其他平台上可能不同。感谢您的更正,Checkers)。

您可能还需要注意一个细节:UTF16 有 2 种风格:Big Endian 和 Little Endian。这就是这 16 位的字节顺序。您为 UTF16 提供的函数原型没有说明使用哪种排序。但是假设 sqlite 使用与 Windows 相同的字节序(Little Endian IIRC。我知道顺序但总是对名称有问题:-)),那么你就很安全了。

编辑:回答跳棋评论:

UTF16 使用 16 位代码单元。在 Win32 下(并且在 Win32 上),wchar_t用于此类存储单元。诀窍是一些 Unicode 字符需要 2 个这样的 16 位代码单元的序列。它们被称为代理对。

与 UTF8 使用 1 到 4 字节序列表示 1 个字符的方式相同。然而 UTF8 与该char类型一起使用。

于 2008-11-11T09:38:31.537 回答
3

所有 C++ 字符串类型都是字符集中性的。他们只是确定一个字符宽度,而不做进一步的假设。wstring 在 Windows 中使用 16 位字符,大致对应于 utf-16,但它仍然取决于您在线程中存储的内容。wstring 不会以任何方式强制您放入其中的数据必须是有效的 utf16。Windows 在定义 UNICODE 时使用 utf16,因此您的字符串很可能已经是 utf16,您无需执行任何操作。

其他一些人建议使用 WideCharToMultiByte 函数,这是将 utf16 转换为 utf8 的方法之一。但是由于 sqlite 可以处理 utf16,所以这不是必需的。

于 2008-11-11T08:46:58.253 回答
0

utf-8 和 utf-16 都是“unicode”字符编码。您可能谈论的是 utf-32,它是一种固定大小的字符编码。也许正在寻找

"Convert utf-32 into utf-8 or utf-16"

为您提供有关此的一些结果或其他论文。

于 2008-11-11T08:44:55.263 回答
0

最简单的方法是使用 CStringA。CString 类是 CStringA(ASCII 版本)或 CStringW(宽字符版本)的 typedef。这两个类都有构造函数来转换字符串类型。我通常使用:

sqlite3_open(CStringA(L"MyWideCharFileName"), ...);
于 2014-08-22T21:56:14.540 回答