1

有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如,假设我有一个页面,例如:

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

“地址:”是关键,但我实际上是在尝试获得“123 My Street”,其中有一堆 html 标签和中间的空格。理想情况下,我想获得字符串“地址:”后面的 td 之间的值。似乎 JSoup 可以进行查找,但我没有看到如何进行偏移的好例子(我可能错过了)。是否有处理键/值的库?

我也有兴趣了解类似于 Kapow 提取浏览器的 UI 脚本的任何开源 (MIT/Apache) 计划。

谢谢。

4

2 回答 2

2

尝试网络收获。它是用 Java 编写的开源爬虫。
它可以用作 Java 库、命令行应用程序或与它的独立 IDE 一起使用。

您可以使用<xpath>element 从 XHTML 文档中提取任何值。

于 2011-12-16T16:34:07.490 回答
1

这是一个很好的开源解析器列表:http: //java-source.net/open-source/html-parsers

我使用TagSoup成功地解析了数以万计的网页。至于“键值”关系,这是您必须自己处理的事情。

于 2011-07-29T02:28:44.360 回答