c# - 如何将 unicode 编码数据转换为梵文（印地语）文本

Question

我正在从我的手机将 Devanagri（印地语）脚本中的 SMS 消息接收到我的桌面程序中，但它以我发现是 unicode 的编码（例如 - 091A09470924002009240924）显示数据。是否有现有的库可以让我将其转换为印地语文本？如果没有，我该如何为此编写方法？我正在使用 C#。

score 1 · Accepted Answer

使用 System.Text.Encoding 类。它有方法 GetChars(byte[])。可能你需要一个合适的字体，因为一些印地语符号可以用多种方式书写。

score 1 · Accepted Answer

这是我用于将格鲁吉亚语unicode 转换为其拉丁语等效文本的代码片段。

string[] charset = new string[33] { "a", "b", "g", "d", "e", "v", "z", "T", "i", "k", "l", "m", "n", "o", "p", "J", "r", "s","t", "u", "f", "q", "R", "y", "S", "C", "c", "Z", "w", "W", "x", "j", "h" };
string unicodeString = "აბ, - გდ";
string latin_string = "";
byte[] unicodeBytes = Encoding.Unicode.GetBytes(unicodeString);
for (int p = 0; p < unicodeBytes.Length / 2; p++)
{
if (unicodeBytes[p * 2] > 207 && unicodeBytes[p * 2] < 241)
latin_string += charset[unicodeBytes[p * 2] - 208];
else
latin_string += Convert.ToChar(unicodeBytes[p * 2]).ToString();
}

只解释必要的部分：

Encoding.Unicode.GetBytes(unicodeString);返回字节数组，该数组的长度为2 * unicodeString.Length. 这样来自 unicodestring 的每个字母都有一对字节。为了更好的解释，附上图片在此处输入图像描述

unicodeBytes甚至索引都有代表您要解码的字母的值。格鲁吉亚字母的第一个字母从 208 开始，到 240 结束（总共 33 个）。所以如果unicodeBytes值在 [208;240] 的范围内，我必须使用charset字符串数组来获得拉丁等价物，否则unicodeBytes值只是字符代码。

我不知道是否有它的库，但这种方法会给你基本的想法如何编写你自己的转换器。

score 0 · Accepted Answer

感谢您的回复，他们帮助我找到了确切的解决方案 - http://social.msdn.microsoft.com/Forums/en/netfxbcl/thread/12a3558d-fe48-44fd-840e-03facfd9c944

c# - 如何将 unicode 编码数据转换为梵文（印地语）文本

3 回答 3

Related

Reference