c# - 智能网页抓取 c#

Question

有许多产品提供了一个 gui 来挑选你想从网页中抓取的标签。（例如 WebHarvy 之类的东西）

我之前看过 HTML Agility Pack 以获取 DOM。我只是想检查是否有人知道任何用于在 HTML 页面中自动查找有用内容并创建所需 XPath 的不错的库或流程。

类似于 Evernote 和 iOS 如何知道“文章”在页面上的位置。然而，理想的工作是重复区域和分页。

score 0 · Accepted Answer

不确定这是否是您要查找的内容：
http ://www.diffbot.com/

但 Diffbot 擅长从网站上抓取内容。

1 回答 1