3

Unicode 强调软件应尽可能向前兼容,默认将未分配的字符视为私人使用的代码点。这在大多数情况下效果很好,因为大多数新字符在规范化、大小写折叠等时不会改变。

但是,我想分析 Unicode 中的规范化“破坏性”变化:具有在应用 NFx、NFKx、casefold 或 NFKC_Casefold 规范化时会导致更改的属性的字符。我对自己对 NFC 或 NFKC 算法的理解并不是 100% 有信心,而且我相信存在一些限制特殊情况数量的稳定性变化。如果这意味着不必处理特殊情况,我可以将我的分析限制在 Unicode 4、5 甚至 6。

我最初尝试解析 XML Unicode 字符数据库并根据规范组合类) ( ccc != 0)、NFxy 快速检查( NFC_QC != 'Y',NFD_QC != 'Y'等) 和casefolding/NFKC_Casefold ( CWKCF = 'Y' or CWCF = 'Y') 属性选择代码点。

这是最好的方法,还是我应该只看分解映射和类型?

4

0 回答 0