1

什么更快?我刚刚制作了一个使用 HTML Agility 包的网络爬虫,它消耗了大量内存。

使用内存分析器对其进行分析,我发现 HTMLDocument、HTMLNode 等实例占用了最多的内存。

我觉得使用正则表达式可能会更快,更有效,我错了吗?

4

2 回答 2

1

根据您的具体操作,确实可以使用正则表达式加快速度并释放一些内存。问题是 - 您从中提取数据的页面有多严格和格式良好。正则表达式更容易被您可能在野外遇到的完全有效但出乎意料的 HTML 构造所混淆。

于 2012-05-31T04:29:13.257 回答
1

reg-ex 将比 html agilty pack 快得多。

但是您应该记住,html 不必总是格式正确。仅使用 reg-ex 搜索您想要的正确数据可能会失败。浏览器对错误非常宽容。

敏捷包是一个很棒的工具。它为消耗的内存提供了许多功能。

于 2012-05-31T04:30:54.083 回答