java - 用于检测网页上的列表项的 Java 库

Question

现在的大多数网页都包含事物列表，或者重复很多的 html 模式块。

例如：

是否有用于检测此类列表的 Java 库。它将涉及一定数量的模式匹配和智能。谢谢。

score 0 · Accepted Answer

在 XPath 表达式和 HTML 元素“id”属性之间，您应该能够找到您感兴趣的列表的根，然后更多的 XPath 将让您遍历它们。

如果您还没有 XPath，我建议使用 HtmlUnit。是的，它是用于测试的，但它作为“无头”浏览器工作得非常好，并且对围绕页面 DOM 的 XPath-ing 具有出色的支持。

score 0 · Accepted Answer

您可能想在 google 上调查“scraper”一词。从网页中精确提取数据被粗略地称为抓取，而不是捕获整个页面的“抓取”。

2 回答 2