-1

我刚开始学习java.text.Normalizer. 这看起来很简单。我有一个“奇怪”的破折号要处理(特别是U+2013

我想把它转换成一个普通的破折号,所以我做了一些快速测试代码:

import java.text.Normalizer;

public class Test {
public static void main(String[] args) {
    String weirdDash = "–";
    String normalDash = "-";

    boolean b = Normalizer.isNormalized(weirdDash, Normalizer.Form.NFD);
    if(b == false) {
        System.out.println("Java thinks the weird dash is normal");
        return;
    }
    String normalizedWeirdDash = Normalizer.normalize(weirdDash, Normalizer.Form.NFD);

    if(normalizedWeirdDash.equals(normalDash)) {
        System.out.println("Yay!");
    } else {
        System.out.println("Boo! normalized weird dash "+(normalizedWeirdDash.equals(weirdDash) ? "didn't change" : "= " + normalizedWeirdDash));
    }
}
}

main() 的输出是“嘘!标准化的怪异破折号没有改变”

这怎么可能?这意味着 Normalizer.isNormalized 返回 false,但随后在同一个字符串(具有相同的 Normalizer.Form)上调用 normalize() 根本没有改变它。

我错过了什么?

编辑 此方法输出“真”:

public class Test {
    public static void main(String[] args) {
        String weirdDash = "–";
        String normalDash = "-";
        String newDash = weirdDash.replaceAll("(\\\u2013)", "-");
        System.out.println(newDash.equals(normalDash));
    }
}

所以,如果一切都失败了,我可以使用它。但是出于好奇,Normalizer 是怎么回事?

4

2 回答 2

1

这意味着 Normalizer.isNormalized 返回 false

不,这意味着 Normalizer.isNormalized 返回true。重新阅读您的代码。也许你的意思是

if (b == true) {

当你写

if (b == false) {
于 2013-03-29T18:23:35.610 回答
0

U+2013(en-dash) 和U+002D(minus sign) 是两个不同的 Unicode 字符,而不是同一字符的两种不同表示。因此,标准化不会将第一个变为第二个。

此外,"\u2013"已经在您的代码中 进行了规范化和isNormalized()评估。true

于 2013-03-29T18:26:23.503 回答