5

我需要具有http://www.unicode.org/Public/5.1.0/ucd/UCD.html#AlphabeticAlphabetic中定义的属性的 Unicode 字符范围列表。但是,无论我如何搜索它们,我都无法在 Unicode 字符数据库中找到它们。有人可以提供它们的列表还是仅提供具有指定 Unicode 属性的字符的搜索工具?

4

4 回答 4

14

Unicode 字符数据库包含发行版中的所有文本文件。它不再像很久以前那样只是一个文件。

Alphabetic 属性是派生属性。

您真的不想为此使用代码点范围。您想正确使用该属性。那是因为他们太多了。使用unichars脚本,我们了解到仅在基本多语言平面中就有超过一万个,包括韩文或韩文:

$ unichars '\p{Alphabetic}' | wc -l
   10052

如果我们包括其他 16 个星光层,现在我们有 14000 个:

$ unichars -a '\p{Alphabetic}' | wc -l
   14736

如果我们包括 Han 和 Hangul,事实上 Alphabetic 属性就是这样,我们只是把十万个代码点的屋顶吹掉了:

$ unichars -ua '\p{Alphabetic}' | wc -l
  101539

我希望您可以看到您不想使用代码点范围专门枚举这些。在那条路上充满了疯狂。

顺便说一句,如果您发现unichars脚本有用,您可能还喜欢uniprops脚本,也许还喜欢uninames脚本

于 2011-01-30T15:21:41.540 回答
2

派生的核心属性可以从其他属性中计算出来。

Alphabetic 属性定义为: 生成自:Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic

因此,如果您获取 Lu、Ll、Lt、Lm、Lo、Nl 中的所有字符以及具有 Other_Alphabetic 属性的所有字符,您将拥有 Alphabetic 字符。

于 2011-01-30T14:19:06.753 回答
2

来自您的来源的引用:Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic

这些缩写似乎在这里解释。

于 2011-01-30T14:19:23.573 回答
1

我发现UniView Web 应用程序提供了一个不错的搜索界面。搜索 Letter 属性(未选中 Local)会得到 14723 个结果...

于 2011-01-30T20:34:43.787 回答