4

我正在使用带分隔符的扫描仪,我遇到了一个我想了解的奇怪行为。

我正在使用这个程序:

    Scanner sc = new Scanner("Aller à : Navigation, rechercher");
    sc.useDelimiter("\\s+|\\s*\\p{Punct}+\\s*");
    String word="";
    while(sc.hasNext()){
        word = sc.next();
        System.out.println(word);
    }

输出是:

Aller
à

Navigation
rechercher

所以首先我不明白为什么我得到一个空白令牌,文档说:

根据分隔模式的类型,可能会返回空标记。例如,模式“\s+”将不返回空标记,因为它匹配分隔符的多个实例。定界模式“\s”可能会返回空标记,因为它一次只传递一个空格。

我正在使用\\s+为什么它返回一个空白令牌?

然后我想了解关于正则表达式的另一件事。如果我使用“反转”正则表达式更改分隔符:

    sc.useDelimiter("\\s*\\p{Punct}+\\s*|\\s+");

输出是正确的,我得到:

Aller
à
Navigation
rechercher

为什么它会起作用?

编辑 :

在这种情况下:

    Scanner sc = new Scanner("(23 ou 24 minutes pour les épisodes avec introduction) (approx.)1");
    sc.useDelimiter("\\s*\\p{Punct}+\\s*|\\s+"); //second regex

introduction我在和之间还有一个空白标记approx。有可能避免吗?

4

2 回答 2

1

我有一种感觉,您在有空格后跟标点符号的地方导致两个分隔符捕获。为什么不简单地使用[\\s\\p{Punct}]+

此正则表达式\\s+|\\p{Punct}+将首先捕获空白并将其吞下,然后将捕获下一个分隔符作为标点符号。这将是两个相邻的分隔符,中间没有任何内容(空标记)。

于 2012-05-26T11:13:27.840 回答
0

我也碰巧遇到了 Scanner 类的空令牌问题。我认为必须通过用括号括起来并将+附加到组来使分隔符模式变得贪婪。我使用的模式看起来像这样

"((\\s)+|(\\\\r\\\\n)+|\\p{Punct}+)+". 
于 2015-02-11T19:44:21.927 回答