14

问题标题基本上是我想问的:

[MarshalAs(UnmanagedType.LPStr)]- 这如何将 utf-8 字符串转换为 char* ?

当我尝试在 c# 和 c++ dll 之间进行通信时,我使用上述行;更具体地说,在:

somefunction(char *string) [c++ dll]

somefunction([MarshalAs(UnmanagedType.LPStr) string text) [c#]

当我通过 c# 将我的 utf-8 文本 (scintilla.Text) 发送到我的 c++ dll 中时,我在 VS 10 调试器中显示:

  1. c# 字符串已成功转换为char*

  2. 结果char*正确反映了监视窗口中相应的 utf-8 字符(包括韩语位)。

这是一个屏幕截图(包含更多详细信息):

ss

如您所见,initialScriptText[0]返回单个byte(char): 'B' 并且其内容 char* initialScriptText在 VS 监视窗口中正确显示(包括韩语)。

通过char指针,似乎英语被保存为一个byteper char,而韩语似乎被保存为两个字节 per char。(截图中的韩语单词是3个字母,因此保存为6个字节)

这似乎表明每个“字母”并未保存在相同大小的容器中,而是因语言而异。(可能提示类型?)

我试图在纯 c++ 中实现相同的结果:读取 utf-8 文件并将结果保存为char*.

这是我尝试读取 utf-8 文件并转换为char*c++ 的示例:

在此处输入图像描述

意见:

  1. wchar_t*从 转换为时视觉损失char*
  2. 由于结果,s8 正确显示字符串,我知道我已wchar_t*成功将 utf-8 文件内容转换为char*
  3. 因为“结果”保留了我直接从文件中获取的字节,但是我得到的结果与通过 c# 得到的结果不同(我使用了同一个文件),我得出的结论是 c# 元帅已经放文件内容通过其他一些程序进一步将文本更改为char*.

(屏幕截图还显示了我在使用 wcstombs 时的严重失败)

注意:我使用的是来自 ( http://utfcpp.sourceforge.net/ )的 utf8 标头

请纠正我的代码/观察中的任何错误。

我希望能够模仿我通过 c# marshal 得到的结果,并且在经历了所有这些之后我意识到我完全被卡住了。有任何想法吗?

4

4 回答 4

16

[MarshalAs(UnmanagedType.LPStr)] - 这如何将 utf-8 字符串转换为 char* ?

它没有。托管代码中没有“utf-8 字符串”之类的东西,字符串始终以 utf-16 编码。与 LPStr 之间的编组是使用默认系统代码页完成的。除非您使用代码页 949,否则您在调试器中看到韩文字形非常显着。

如果与 utf-8 互操作是硬性要求,那么您需要在 pinvoke 声明中使用 byte[]。并使用 System.Text.Encoding.UTF8 自己来回转换。使用其 GetString() 方法将 byte[] 转换为字符串,使用其 GetBytes() 方法将字符串转换为 byte[]。如果可能,通过在本机代码中使用 wchar_t[] 来避免所有这些。

于 2012-11-08T13:45:47.213 回答
13

虽然其他答案是正确的,但 .NET 4.7 已经有了重大发展。现在有一个选项可以完全满足 UTF-8 的需要:UnmanagedType.LPUTF8Str. 我试过了,它就像瑞士天文钟一样工作,完全按照它的声音做。

事实上,我什MarshalAs(UnmanagedType.LPUTF8Str)至在一个参数和MarshalAs(UnmanagedType.LPStr)另一个参数中都使用了。也有效。这是我的方法(接受字符串参数并通过参数返回字符串):

[DllImport("mylib.dll", ExactSpelling = true, CallingConvention = CallingConvention.StdCall)] public static extern void ProcessContent([MarshalAs(UnmanagedType.LPUTF8Str)]string content, [MarshalAs(UnmanagedType.LPUTF8Str), Out]StringBuilder outputBuffer,[MarshalAs(UnmanagedType.LPStr)]string settings);

谢谢,微软!另一个麻烦消失了。

于 2018-03-21T03:34:23.373 回答
3

如果您需要编组 UTF-8 string,请手动执行。

IntPtr用而不是字符串定义函数:

somefunction(IntPtr text)

然后将文本转换为以零结尾的 UTF8 字节数组并将它们写入IntPtr

byte[] retArray = Encoding.UTF8.GetBytes(text);
byte[] retArrayZ = new byte[retArray.Length + 1];
Array.Copy(retArray, retArrayZ, retArray.Length);
IntPtr retPtr = AllocHGlobal(retArrayZ.Length);
Marshal.Copy(retArrayZ, 0, retPtr, retArrayZ.Length);
somefunction(retPtr);      
于 2014-11-29T04:10:27.923 回答
3

如果使用早于 4.7 的 .NET Framework,则可以使用ICustomMarshaler 。


        class UTF8StringCodec : ICustomMarshaler
        {
            public static ICustomMarshaler GetInstance(string cookie) => new UTF8StringCodec();

            public void CleanUpManagedData(object ManagedObj)
            {
                // nop
            }

            public void CleanUpNativeData(IntPtr pNativeData)
            {
                Marshal.FreeCoTaskMem(pNativeData);
            }

            public int GetNativeDataSize()
            {
                throw new NotImplementedException();
            }

            public IntPtr MarshalManagedToNative(object ManagedObj)
            {
                var text = $"{ManagedObj}";
                var bytes = Encoding.UTF8.GetBytes(text);
                var ptr = Marshal.AllocCoTaskMem(bytes.Length + 1);
                Marshal.Copy(bytes, 0, ptr, bytes.Length);
                Marshal.WriteByte(ptr, bytes.Length, 0);
                return ptr;
            }

            public object MarshalNativeToManaged(IntPtr pNativeData)
            {
                if (pNativeData == IntPtr.Zero)
                {
                    return null;
                }

                var bytes = new MemoryStream();
                var ofs = 0;
                while (true)
                {
                    var byt = Marshal.ReadByte(pNativeData, ofs);
                    if (byt == 0)
                    {
                        break;
                    }
                    bytes.WriteByte(byt);
                    ofs++;
                }

                return Encoding.UTF8.GetString(bytes.ToArray());
            }
        }

P/Invoke 声明:

        [DllImport("native.dll", CallingConvention = CallingConvention.Cdecl)]
        private extern static int NativeFunc(
            [MarshalAs(UnmanagedType.CustomMarshaler, MarshalTypeRef = typeof(UTF8StringCodec))] string path
        );

回调内部的用法:

        [StructLayout(LayoutKind.Sequential)]
        struct Options
        {
            [MarshalAs(UnmanagedType.FunctionPtr)]
            public CallbackFunc callback;
        }

        [UnmanagedFunctionPointer(CallingConvention.Cdecl)]
        public delegate int CallbackFunc(
            [MarshalAs(UnmanagedType.CustomMarshaler, MarshalTypeRef = typeof(UTF8StringCodec))] string path
        );
于 2020-11-18T15:45:24.740 回答