1

我现在已经搜索了很多,希望有人可以帮助我。我想获取 Java 中每种语言的 Unicode 块。到目前为止我发现的是:

  • Character.UnicodeBlock.ARABIC;Character.UnicodeBlock.Cyrillic;
  • Character.UnicodeBlock.LATIN_1_SUPPLEMENT;……

但这还不够。我也想知道,德语、法语、俄语字母表中的哪些字母。我只能得到它们对应于拉丁文或西里尔文,而不是像这样的语言特定字母表。

4

3 回答 3

2

我也想知道,德语、法语、俄语字母表中有哪些字母。

我认为 Unicode 不支持这一点。例如,Unicode 中没有说明在哪种西欧语言中使用了哪些基于拉丁语的字符。

事实上,我有一种感觉,甚至不可能做出明确的决定。例如,我记得读过一本 19 世纪的英国经典著作,其中作者/出版商将“角色”一词拼写为“角色”。当语言借用其他语言时,这种情况经常发生。

于 2012-08-21T06:44:23.563 回答
2

查看 ICU 课程LocaleData。它允许按语言环境访问 CLDR 元素,例如 exemplarCharacters。

请注意, exemplarCharacters 的定义相当模糊(作为语言中使用的字符的概念本质上也是模糊的),因此它的值尚未在坚实的基础上定义,并且在那里做出的许多选择是有争议的。但总体而言,那里的数据可能仍然是我们拥有的最佳基础。

另请注意,Unicode 块在此上下文中是相当粗略的单元。例如,Latin 1 Supplement 块包含许多语言中使用的字符,但没有一种语言使用其中的所有字母。

于 2012-08-21T07:15:32.607 回答