2

如果我正在创建一个简单的网络爬虫(从根 url 抓取所有链接,然后从这些链接抓取所有电子邮件)是否值得使用 HTML Agility Pack?我实际上并没有浏览 HTML 标签,我只是想在整个文档中扫描电子邮件。

使用 HTML 敏捷包会更有效吗?

我严格剥离它们,因为我必须拥有这些电子邮件,并且大约有 100 个链接。只会抓取大约 500 封电子邮件。不用担心,我在这里牢记道德。

4

1 回答 1

2

关于这个有很多问题——我读到的大多数问题都说——不要使用正则表达式进行网络抓取。

另一方面 - 如果你想要的只是文本解析而不考虑文本的 HTML 特性(如果我理解正确,你会这样做),使用正则表达式可能会更好。

于 2010-02-10T13:48:17.653 回答