java - 特定 div 的页面抓取

Question

我想知道是否有办法使用 Java 读取给定网页的 html 输出？

我知道在 php 中您可以执行以下操作：

$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

我正在寻找 Java 等价物。

此外，一旦我拥有呈现的 html，是否有任何 Java 实用程序可以让我通过其 id 去除单个 div？

感谢您对此的任何帮助。

score 2 · Accepted Answer

使用jsoup。

您可以在树模型和类似于 CSS 或 jQuery 选择器的强大查询语法以及快速获取网页源代码的实用方法之间进行选择。

引用他们的网站：

获取 Wikipedia 主页，将其解析为 DOM，然后从 In the news 部分中选择标题到元素列表中：
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

找到要删除的Element代表后，只需调用它即可。divremove()

java - 特定 div 的页面抓取

1 回答 1

Related

Reference