java - 调用 String#toLowerCase 时应该指定哪个语言环境？

Question

在 Java 中，该String#toLowerCase方法使用默认系统Locale来确定如何处理小写。如果我将一些 ASCII 文本小写并希望确保按预期处理，我应该使用哪个语言环境？

编辑：我主要关心编程标识符，例如模式中的表名和列名。因此，我希望应用英文小写。

Locale.ROOT声明它是区域设置敏感操作的语言/国家中立区域设置

Locale.ENGLISH大概也是一个安全的选择。

score 17 · Accepted Answer

是的，Locale.ENGLISH对于诸如编程语言标识符和 URL 部分之类的大小写操作来说是一个安全的选择，因为它不涉及任何特殊的大小写规则和英语大小写中的所有 7 位 ASCII 字符 - 转换为 7 位 ASCII 字符。

对于所有其他语言环境，情况并非如此。在土耳其语中，'I' 和 'i' 字符不进行大小写转换。

“有点和无点的我”解释说：

土耳其字母表是拉丁字母表的变体，包括字母 I 的两个不同版本，一个带点，另一个不带点。

在 Unicode 中，U+0131 是一个小写的无点 i (ı)。U+0130 (İ) 是带有点的大写 i。ISO-8859-9 分别将它们放在 0xFD 和 0xDD 位置。在正常的排版中，当小写 i 与其他变音符号组合时，通常在添加变音符号之前删除点；然而，Unicode 仍然列出了包含点 i 的等效组合序列，因为从逻辑上讲，它是被修改的普通点 i 字符。

大多数 Unicode 软件将大写 ı 转换为 I 并将小写 İ 转换为 i，但是，除非专门为土耳其语设置，否则它将小写 I 转换为 i 并将大写 i 转换为 I。因此大写然后小写，反之亦然，会更改字母。

特殊例外列表保存在http://unicode.org/Public/UNIDATA/SpecialCasing.txt

# ================================================================================

# Turkish and Azeri

# I and i-dotless; I-dot and i are case pairs in Turkish and Azeri
# The following rules handle those cases.

0130; 0069; 0130; 0130; tr; # LATIN CAPITAL LETTER I WITH DOT ABOVE
0130; 0069; 0130; 0130; az; # LATIN CAPITAL LETTER I WITH DOT ABOVE

# When lowercasing, remove dot_above in the sequence I + dot_above, which will turn into i.
# This matches the behavior of the canonically equivalent I-dot_above

0307; ; 0307; 0307; tr After_I; # COMBINING DOT ABOVE
0307; ; 0307; 0307; az After_I; # COMBINING DOT ABOVE

...

score 3 · Accepted Answer

如果我将一些 ASCII 文本小写并希望确保按预期处理，我应该使用哪个语言环境？

这取决于“按预期”对您意味着什么。允许指定区域设置的要点是大写/小写在所有语言中的工作方式不同，即使它们可能使用相同的字母。因此，请指定您和/或您的客户居住的区域设置，它可能会按照您/他们的预期工作。

java - 调用 String#toLowerCase 时应该指定哪个语言环境？

2 回答 2

Related

Reference