java - 有哪些好的 Java 库可以从网页中搜索和抓取数据。

Question

有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如，假设我有一个页面，例如：

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

“地址：”是关键，但我实际上是在尝试获得“123 My Street”，其中有一堆 html 标签和中间的空格。理想情况下，我想获得字符串“地址：”后面的 td 之间的值。似乎 JSoup 可以进行查找，但我没有看到如何进行偏移的好例子（我可能错过了）。是否有处理键/值的库？

我也有兴趣了解类似于 Kapow 提取浏览器的 UI 脚本的任何开源 (MIT/Apache) 计划。

谢谢。

score 2 · Accepted Answer

尝试网络收获。它是用 Java 编写的开源爬虫。
它可以用作 Java 库、命令行应用程序或与它的独立 IDE 一起使用。

您可以使用<xpath>element 从 XHTML 文档中提取任何值。

score 1 · Accepted Answer

这是一个很好的开源解析器列表：http: //java-source.net/open-source/html-parsers

我使用TagSoup成功地解析了数以万计的网页。至于“键值”关系，这是您必须自己处理的事情。

2 回答 2