我现在已经搜索了很多,希望有人可以帮助我。我想获取 Java 中每种语言的 Unicode 块。到目前为止我发现的是:
- Character.UnicodeBlock.ARABIC;Character.UnicodeBlock.Cyrillic;
- Character.UnicodeBlock.LATIN_1_SUPPLEMENT;……
但这还不够。我也想知道,德语、法语、俄语字母表中的哪些字母。我只能得到它们对应于拉丁文或西里尔文,而不是像这样的语言特定字母表。
我也想知道,德语、法语、俄语字母表中有哪些字母。
我认为 Unicode 不支持这一点。例如,Unicode 中没有说明在哪种西欧语言中使用了哪些基于拉丁语的字符。
事实上,我有一种感觉,甚至不可能做出明确的决定。例如,我记得读过一本 19 世纪的英国经典著作,其中作者/出版商将“角色”一词拼写为“角色”。当语言借用其他语言时,这种情况经常发生。
查看 ICU 课程LocaleData。它允许按语言环境访问 CLDR 元素,例如 exemplarCharacters。
请注意, exemplarCharacters 的定义相当模糊(作为语言中使用的字符的概念本质上也是模糊的),因此它的值尚未在坚实的基础上定义,并且在那里做出的许多选择是有争议的。但总体而言,那里的数据可能仍然是我们拥有的最佳基础。
另请注意,Unicode 块在此上下文中是相当粗略的单元。例如,Latin 1 Supplement 块包含许多语言中使用的字符,但没有一种语言使用其中的所有字母。
获取字母表和语言排序顺序的简单方法在这里:http:
//developer.mimer.com/charts/index.tml
http://developer.mimer.com/charts/tailorings.htm
例如。芬兰语字母表: http:
//developer.mimer.com/charts/finnish.htm
http://developer.mimer.com/charts/tailorings.htm#Finnish
德语: http:
//developer.mimer.com/charts/german.htm
http://developer.mimer.com/charts/tailorings.htm#German