问题标题基本上是我想问的:
[MarshalAs(UnmanagedType.LPStr)]
- 这如何将 utf-8 字符串转换为 char* ?
当我尝试在 c# 和 c++ dll 之间进行通信时,我使用上述行;更具体地说,在:
somefunction(char *string) [c++ dll]
somefunction([MarshalAs(UnmanagedType.LPStr) string text) [c#]
当我通过 c# 将我的 utf-8 文本 (scintilla.Text) 发送到我的 c++ dll 中时,我在 VS 10 调试器中显示:
c# 字符串已成功转换为
char*
结果
char*
正确反映了监视窗口中相应的 utf-8 字符(包括韩语位)。
这是一个屏幕截图(包含更多详细信息):
如您所见,initialScriptText[0]
返回单个byte(char)
: 'B' 并且其内容 char* initialScriptText
在 VS 监视窗口中正确显示(包括韩语)。
通过char
指针,似乎英语被保存为一个byte
per char
,而韩语似乎被保存为两个字节 per char
。(截图中的韩语单词是3个字母,因此保存为6个字节)
这似乎表明每个“字母”并未保存在相同大小的容器中,而是因语言而异。(可能提示类型?)
我试图在纯 c++ 中实现相同的结果:读取 utf-8 文件并将结果保存为char*
.
这是我尝试读取 utf-8 文件并转换为char*
c++ 的示例:
意见:
wchar_t*
从 转换为时视觉损失char*
- 由于结果,s8 正确显示字符串,我知道我已
wchar_t*
成功将 utf-8 文件内容转换为char*
- 因为“结果”保留了我直接从文件中获取的字节,但是我得到的结果与通过 c# 得到的结果不同(我使用了同一个文件),我得出的结论是 c# 元帅已经放文件内容通过其他一些程序进一步将文本更改为
char*
.
(屏幕截图还显示了我在使用 wcstombs 时的严重失败)
注意:我使用的是来自 ( http://utfcpp.sourceforge.net/ )的 utf8 标头
请纠正我的代码/观察中的任何错误。
我希望能够模仿我通过 c# marshal 得到的结果,并且在经历了所有这些之后我意识到我完全被卡住了。有任何想法吗?