有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如,假设我有一个页面,例如:
<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street </td></tr>
“地址:”是关键,但我实际上是在尝试获得“123 My Street”,其中有一堆 html 标签和中间的空格。理想情况下,我想获得字符串“地址:”后面的 td 之间的值。似乎 JSoup 可以进行查找,但我没有看到如何进行偏移的好例子(我可能错过了)。是否有处理键/值的库?
我也有兴趣了解类似于 Kapow 提取浏览器的 UI 脚本的任何开源 (MIT/Apache) 计划。
谢谢。