Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
现在的大多数网页都包含事物列表,或者重复很多的 html 模式块。
例如:
是否有用于检测此类列表的 Java 库。它将涉及一定数量的模式匹配和智能。谢谢。
在 XPath 表达式和 HTML 元素“id”属性之间,您应该能够找到您感兴趣的列表的根,然后更多的 XPath 将让您遍历它们。
如果您还没有 XPath,我建议使用 HtmlUnit。是的,它是用于测试的,但它作为“无头”浏览器工作得非常好,并且对围绕页面 DOM 的 XPath-ing 具有出色的支持。
您可能想在 google 上调查“scraper”一词。从网页中精确提取数据被粗略地称为抓取,而不是捕获整个页面的“抓取”。