java - 如何从网页中获取特定文本

Question

我已经在 stackoverflow 和谷歌上寻找这个问题的答案，但实际上找不到我想要的东西。

当我想使用此代码从页面（例如此页面）中检索数据时

public class ConsoleSearch {

    public static void main(String[] args) throws IOException {

        URL url = new URL("http://www.stackoverflow.com");
        URLConnection cnt = url.openConnection();
        BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
        String content;

        while((content = br.readLine()) != null){   
            System.out.println(content);
        }
        br.close();
    }

}

我显然得到了 HTML 标签，以及它附带的所有其他内容。我可以使用具有挑战性的部分轻松过滤 HTML HtmlCleaner ，当我想从所有检索到的数据中检索特定文本时，我发现自己陷入困境。

例如，如果我只想检索文本“Nova Scotia”和/或“Europe”……我该怎么做？

score 2 · Accepted Answer

Pattern p = Pattern.compile("Nova Scotia"); 
    Matcher m = p.matcher(content);
    boolean b = m.matches();

只需查看上面的正则表达式包，它会对您有所帮助。

java - 如何从网页中获取特定文本

1 回答 1

Related

Reference