unicode - 通过 UCD 检测 Unicode 中的规范化破坏性变化

翻译自：https://stackoverflow.com/questions/65056273 2020-11-29T01:53:51.633

45 次

Unicode 强调软件应尽可能向前兼容，默认将未分配的字符视为私人使用的代码点。这在大多数情况下效果很好，因为大多数新字符在规范化、大小写折叠等时不会改变。

但是，我想分析 Unicode 中的规范化“破坏性”变化：具有在应用 NFx、NFKx、casefold 或 NFKC_Casefold 规范化时会导致更改的属性的字符。我对自己对 NFC 或 NFKC 算法的理解并不是 100% 有信心，而且我相信存在一些限制特殊情况数量的稳定性变化。如果这意味着不必处理特殊情况，我可以将我的分析限制在 Unicode 4、5 甚至 6。

我最初尝试解析 XML Unicode 字符数据库并根据规范组合类) ( ccc != 0)、NFxy 快速检查( NFC_QC != 'Y',NFD_QC != 'Y'等) 和casefolding/NFKC_Casefold ( CWKCF = 'Y' or CWCF = 'Y') 属性选择代码点。

这是最好的方法，还是我应该只看分解映射和类型？

unicode - 通过 UCD 检测 Unicode 中的规范化破坏性变化

0 回答 0

Related

Reference