我需要将 unicode 字符串转换为 unicode 字符。
例如:语言泰米尔语
"கமலி"=>'க','ம','லி'
我能够剥离 unicode 字节,但产生 unicode 字符成为问题。
byte[] stringBytes = Encoding.Unicode.GetBytes("கமலி");
char[] stringChars = Encoding.Unicode.GetChars(stringBytes);
foreach (var crt in stringChars)
{
Trace.WriteLine(crt);
}
它给出的结果为:
'க'=>0x0b95
'ம'=>0x0bae
'ல'=>0x0bb2
'ி'=>0x0bbf
所以这里的问题是如何将字符'லி'剥离为'லி'而不像'ல','ி'那样分裂。
因为在印度语言中通过将辅音和元音表示为单个字符是很自然的,但是用 c# 解析会很困难。
我只需要分成 3 个字符。