我需要具有http://www.unicode.org/Public/5.1.0/ucd/UCD.html#AlphabeticAlphabetic
中定义的属性的 Unicode 字符范围列表。但是,无论我如何搜索它们,我都无法在 Unicode 字符数据库中找到它们。有人可以提供它们的列表还是仅提供具有指定 Unicode 属性的字符的搜索工具?
4 回答
Unicode 字符数据库包含发行版中的所有文本文件。它不再像很久以前那样只是一个文件。
Alphabetic 属性是派生属性。
您真的不想为此使用代码点范围。您想正确使用该属性。那是因为他们太多了。使用unichars脚本,我们了解到仅在基本多语言平面中就有超过一万个,不包括韩文或韩文:
$ unichars '\p{Alphabetic}' | wc -l
10052
如果我们包括其他 16 个星光层,现在我们有 14000 个:
$ unichars -a '\p{Alphabetic}' | wc -l
14736
如果我们包括 Han 和 Hangul,事实上 Alphabetic 属性就是这样,我们只是把十万个代码点的屋顶吹掉了:
$ unichars -ua '\p{Alphabetic}' | wc -l
101539
我希望您可以看到您不想使用代码点范围专门枚举这些。在那条路上充满了疯狂。
顺便说一句,如果您发现unichars脚本有用,您可能还喜欢uniprops脚本,也许还喜欢uninames脚本。
派生的核心属性可以从其他属性中计算出来。
Alphabetic 属性定义为: 生成自:Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic
因此,如果您获取 Lu、Ll、Lt、Lm、Lo、Nl 中的所有字符以及具有 Other_Alphabetic 属性的所有字符,您将拥有 Alphabetic 字符。
来自您的来源的引用:Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic
这些缩写似乎在这里解释。
我发现UniView Web 应用程序提供了一个不错的搜索界面。搜索 Letter 属性(未选中 Local)会得到 14723 个结果...