这与
在 UTF8 Unicode 的排序规则下,哪些字符算作同一字符?什么 VB.net 函数可以用来合并它们?
这就是我计划这样做的方式:
使用http://msdn.microsoft.com/en-us/library/dd374126%28v=vs.85%29.aspx将字符串变成
KD 形式。
基本上它会将大多数变化(例如上标)转换为正常数字。它还将 tilda 和重音分解为 2 个字符。
下一步将删除所有唯一目的是 tildaing 或重音字符的字符。
我怎么知道哪些角色是这样的?哪些字符只是“组合字符”
我如何找到这样的字符?找到这些后,我该如何摆脱它?我应该逐个字符扫描并删除所有这些“组合字符”吗?
例如: 300 到 362 的字符可以去掉。
然后呢?