我已经在 stackoverflow 和谷歌上寻找这个问题的答案,但实际上找不到我想要的东西。
当我想使用此代码从页面(例如此页面)中检索数据时
public class ConsoleSearch {
public static void main(String[] args) throws IOException {
URL url = new URL("http://www.stackoverflow.com");
URLConnection cnt = url.openConnection();
BufferedReader br = new BufferedReader(new InputStreamReader
(cnt.getInputStream()));
String content;
while((content = br.readLine()) != null){
System.out.println(content);
}
br.close();
}
}
我显然得到了 HTML 标签,以及它附带的所有其他内容。我可以使用具有挑战性的部分轻松过滤 HTML HtmlCleaner
,当我想从所有检索到的数据中检索特定文本时,我发现自己陷入困境。
例如,如果我只想检索文本“Nova Scotia”和/或“Europe”……我该怎么做?