0

现在的大多数网页都包含事物列表,或者重复很多的 html 模式块。

例如:

  1. 主页上的 Facebook 状态消息。
  2. 挖掘/黑客新闻
  3. StackOverflow 主页

是否有用于检测此类列表的 Java 库。它将涉及一定数量的模式匹配和智能。谢谢。

4

2 回答 2

0

在 XPath 表达式和 HTML 元素“id”属性之间,您应该能够找到您感兴趣的列表的根,然后更多的 XPath 将让您遍历它们。

如果您还没有 XPath,我建议使用 HtmlUnit。是的,它是用于测试的,但它作为“无头”浏览器工作得非常好,并且对围绕页面 DOM 的 XPath-ing 具有出色的支持。

于 2010-08-25T22:48:58.073 回答
0

您可能想在 google 上调查“scraper”一词。从网页中精确提取数据被粗略地称为抓取,而不是捕获整个页面的“抓取”。

于 2010-12-31T17:04:06.143 回答