0

我是 Java 正则表达式的新手,我正在尝试从此文本中提取所有“课程#”:

<a id="lesson1" href="lesson1.html">Lesson 1</a>
<a id="lesson2" href="lesson2.html">Lesson 2</a>
<a id="lesson3" href="lesson3.html">Lesson 3</a>
<a id="lesson4" href="lesson4.html">Lesson 4</a>
<a id="lesson5" href="lesson5.html">Lesson 5</a>
<a id="lesson6" href="lesson6.html">Lesson 6</a>
<a id="lesson7" href="lesson7.html">Lesson 7</a>
<a id="lesson8" href="lesson8.html">Lesson 8</a>
<a id="lesson9" href="lesson9.html">Lesson 9</a>

我正在使用此代码从我的字符串中提取该部分:

String s = ""
        + "<a id=\"lesson1\" href=\"lesson1.html\">Lesson 1</a>\n"
        + "<a id=\"lesson2\" href=\"lesson2.html\">Lesson 2</a>\n"
        + "<a id=\"lesson3\" href=\"lesson3.html\">Lesson 3</a>\n"
        + "<a id=\"lesson4\" href=\"lesson4.html\">Lesson 4</a>\n"
        + "<a id=\"lesson5\" href=\"lesson5.html\">Lesson 5</a>\n"
        + "<a id=\"lesson6\" href=\"lesson6.html\">Lesson 6</a>\n"
        + "<a id=\"lesson7\" href=\"lesson7.html\">Lesson 7</a>\n"
        + "<a id=\"lesson8\" href=\"lesson8.html\">Lesson 8</a>\n"
        + "<a id=\"lesson9\" href=\"lesson9.html\">Lesson 9</a>\n"
        + "";

Pattern pattern = Pattern.compile("id=\"(lesson[0-9])");
Matcher m = pattern.matcher(s);

System.out.println("Find: " + m.find())
System.out.println("Matches: " + m.matches());

if (m.matches()) {
   System.out.println("Group 0: " + m.group(0));
}

我用这段代码得到的输出是:

Find: true
Matches: false

在 javadocs 我读到如果 m.matches 返回 false 我不能访问组。

为什么如果 m.find() 返回 true,而 m.matches() 返回 false?我无法使用此代码访问组,所以我错过了什么?

4

4 回答 4

2

matches方法尝试将整个输入序列与模式进行匹配。您应该Matcher.find()循环调用,直到它返回 false。每次调用 时Matcher.find(),您都可以访问当前找到的事件的组。

while (m.find()) {
   String someGroup = m.group(1);
}
于 2013-03-19T17:09:54.030 回答
1

这是对您问题前半部分的回答。

来自Javadoc

“find 方法扫描输入序列,寻找与模式匹配的下一个子序列。”

“matches 方法尝试将整个输入序列与模式进行匹配。”

不同之处在于该find方法在字符串中的任何位置查找正则表达式的匹配项,而该matches方法仅在整个输入匹配时才返回 true。特别是,您的正则表达式以 开头,id =而您的字符串以 开头<a,因此您不会得到匹配。

于 2013-03-19T17:09:23.437 回答
0

试试下面的代码:

    String data = "" + "<a id=\"lesson1\" href=\"lesson1.html\">Lesson 1</a>\n"
            + "<a id=\"lesson2\" href=\"lesson2.html\">Lesson 2</a>\n"
            + "<a id=\"lesson3\" href=\"lesson3.html\">Lesson 3</a>\n"
            + "<a id=\"lesson4\" href=\"lesson4.html\">Lesson 4</a>\n"
            + "<a id=\"lesson5\" href=\"lesson5.html\">Lesson 5</a>\n"
            + "<a id=\"lesson6\" href=\"lesson6.html\">Lesson 6</a>\n"
            + "<a id=\"lesson7\" href=\"lesson7.html\">Lesson 7</a>\n"
            + "<a id=\"lesson8\" href=\"lesson8.html\">Lesson 8</a>\n"
            + "<a id=\"lesson9\" href=\"lesson9.html\">Lesson 9</a>\n" + "";

    Pattern pattern = Pattern.compile("\\>([Ll]esson\\s+\\d+)");
    Matcher matcher = pattern.matcher(data);

    while (matcher.find()) {
        System.out.println(matcher.group(1));
    }

希望这可以帮助。

于 2013-03-19T17:14:58.787 回答
0

你只需要这样做:

if (m.find()) {
   System.out.println(m.group(1));
}
  • group(1)而不是group(0)因为group(0)返回整个匹配,而group(1)返回第一个括号的组。
  • 你要么m.find()要么m.matches()。不同之处在于m.matches()需要匹配整个字符串(请参阅Java Regex 中的matches() 和find() 之间的区别)。您的正则表达式仅匹配字符串中的子字符串,因此matches()失败并find()找到。
于 2013-03-19T17:16:18.533 回答