0

有许多产品提供了一个 gui 来挑选你想从网页中抓取的标签。(例如 WebHarvy 之类的东西)

我之前看过 HTML Agility Pack 以获取 DOM。我只是想检查是否有人知道任何用于在 HTML 页面中自动查找有用内容并创建所需 XPath 的不错的库或流程。

类似于 Evernote 和 iOS 如何知道“文章”在页面上的位置。然而,理想的工作是重复区域和分页。

4

1 回答 1

0

不确定这是否是您要查找的内容:
http ://www.diffbot.com/

但 Diffbot 擅长从网站上抓取内容。

于 2012-10-17T12:00:02.417 回答