java - java.text.Normalizer：isNormalized() 返回 false，但 Normalize 不会更改字符串

Question

我刚开始学习java.text.Normalizer. 这看起来很简单。我有一个“奇怪”的破折号要处理（特别是U+2013）

我想把它转换成一个普通的破折号，所以我做了一些快速测试代码：

import java.text.Normalizer;

public class Test {
public static void main(String[] args) {
    String weirdDash = "–";
    String normalDash = "-";

    boolean b = Normalizer.isNormalized(weirdDash, Normalizer.Form.NFD);
    if(b == false) {
        System.out.println("Java thinks the weird dash is normal");
        return;
    }
    String normalizedWeirdDash = Normalizer.normalize(weirdDash, Normalizer.Form.NFD);

    if(normalizedWeirdDash.equals(normalDash)) {
        System.out.println("Yay!");
    } else {
        System.out.println("Boo! normalized weird dash "+(normalizedWeirdDash.equals(weirdDash) ? "didn't change" : "= " + normalizedWeirdDash));
    }
}
}

main() 的输出是“嘘！标准化的怪异破折号没有改变”

这怎么可能？这意味着 Normalizer.isNormalized 返回 false，但随后在同一个字符串（具有相同的 Normalizer.Form）上调用 normalize() 根本没有改变它。

我错过了什么？

编辑此方法输出“真”：

public class Test {
    public static void main(String[] args) {
        String weirdDash = "–";
        String normalDash = "-";
        String newDash = weirdDash.replaceAll("(\\\u2013)", "-");
        System.out.println(newDash.equals(normalDash));
    }
}

所以，如果一切都失败了，我可以使用它。但是出于好奇，Normalizer 是怎么回事？

score 1 · Accepted Answer

这意味着 Normalizer.isNormalized 返回 false

不，这意味着 Normalizer.isNormalized 返回true。重新阅读您的代码。也许你的意思是

if (b == true) {

当你写

if (b == false) {

score 0 · Accepted Answer

U+2013(en-dash) 和U+002D(minus sign) 是两个不同的 Unicode 字符，而不是同一字符的两种不同表示。因此，标准化不会将第一个变为第二个。

此外，"\u2013"已经在您的代码中进行了规范化和isNormalized()评估。true

java - java.text.Normalizer：isNormalized() 返回 false，但 Normalize 不会更改字符串

2 回答 2

Related

Reference