java - Unicode 块：获取每种语言的字母表 [Java]

Question

我现在已经搜索了很多，希望有人可以帮助我。我想获取 Java 中每种语言的 Unicode 块。到目前为止我发现的是：

但这还不够。我也想知道，德语、法语、俄语字母表中的哪些字母。我只能得到它们对应于拉丁文或西里尔文，而不是像这样的语言特定字母表。

score 2 · Accepted Answer

我也想知道，德语、法语、俄语字母表中有哪些字母。

我认为 Unicode 不支持这一点。例如，Unicode 中没有说明在哪种西欧语言中使用了哪些基于拉丁语的字符。

事实上，我有一种感觉，甚至不可能做出明确的决定。例如，我记得读过一本 19 世纪的英国经典著作，其中作者/出版商将“角色”一词拼写为“角色”。当语言借用其他语言时，这种情况经常发生。

score 2 · Accepted Answer

查看 ICU 课程LocaleData。它允许按语言环境访问 CLDR 元素，例如 exemplarCharacters。

请注意， exemplarCharacters 的定义相当模糊（作为语言中使用的字符的概念本质上也是模糊的），因此它的值尚未在坚实的基础上定义，并且在那里做出的许多选择是有争议的。但总体而言，那里的数据可能仍然是我们拥有的最佳基础。

另请注意，Unicode 块在此上下文中是相当粗略的单元。例如，Latin 1 Supplement 块包含许多语言中使用的字符，但没有一种语言使用其中的所有字母。

score 0 · Accepted Answer

3 回答 3